Publicado: Jan 26, 2022

O HAQM Textract é um serviço de machine learning que extrai automaticamente texto, manuscritos e dados de documentos digitalizados, com recursos que vão além do simples Optical Character Recognition (OCR, reconhecimento óptico de caracteres), para identificar, entender e extrair dados de formulários e tabelas.

Anteriormente, os clientes precisavam converter documentos PDF em formatos PNG ou JPEG antes de chamar as APIs síncronas do Textract - (DetectDocumentText, AnalyzeDocument e AnalyzeExpense and AnalyzeID) para extrair texto e dados de documentos como formulários de solicitação, faturas e recibos, contratos/acordos, documentos de identificação e formulários de inscrição. A partir de hoje, o HAQM Textract remove essa etapa de pré-processamento e oferece suporte a documentos PDF de página única em operações síncronas para que os clientes possam extrair texto e dados de documentos PDF sem converter documentos de PDF em PNG ou JPEG.

Além disso, o HAQM Textract agora também oferece suporte ao processamento de imagens codificadas JPEG 2000 em documentos PDF. Agora, você pode extrair texto e dados de imagens codificadas JPEG 2000 nos seus documentos PDF.

Para começar, faça login no console do HAQM Textract para testar seus documentos PDF. Para saber mais sobre os recursos do Textract, consulte o site do HAQM Textract, o guia do desenvolvedor ou a página de recursos.