Atributos do HAQM Data Firehose

Por que usar o HAQM Data Firehose?

O HAQM Data Firehose é a maneira mais fácil de carregar dados de streaming em datastores e ferramentas de análise. O Data Firehose é um serviço totalmente gerenciado que facilita capturar, transformar e carregar volumes enormes de dados de streaming de centenas de milhares de fontes para HAQM S3, HAQM Redshift, HAQM OpenSearch Service, Snowflake, tabelas do Apache Iceberg, tabelas do HAQM S3 (demonstração), endpoints HTTP genéricos e provedores de serviços como Datadog, New Relic, MongoDB e Splunk, viabilizando análises e insights em tempo real.

Fluxos do Firehose

Open all

Um fluxo do Firehose é a entidade subjacente do Firehose. Você usa o Firehose criando um fluxo do Firehose e enviando dados para ele.

Principais recursos

Open all

É possível iniciar o HAQM Data Firehose e criar um fluxo de entrega para carregar dados no HAQM S3, HAQM Redshift, HAQM OpenSearch Service, Snowflake, tabelas do Apache Iceberg, tabelas do HAQM S3 (demonstração), endpoints HTTP, Datadog, New Relic, MongoDB ou Splunk com apenas alguns cliques no Console de Gerenciamento da AWS. Você pode enviar dados para o fluxo de entrega chamando a API do Firehose ou executando o atendente do Linux que disponibilizamos na fonte de dados. O Data Firehose carrega continuamente os dados nos destinos especificados.

Depois de iniciados, seus fluxos do Firehose aumentam a escala verticalmente de forma automática para lidar com gigabytes por segundo ou mais de dados de entrada, além de manter a latência de dados nos níveis que você especificar para o fluxo, dentro dos limites. Não é necessário intervenção nem manutenção.

Você pode especificar um tamanho ou intervalo de lote para controlar com que velocidade os dados serão carregados para os seus destinos. Por exemplo, você pode definir o intervalo do lote entre zero segundo e 15 minutos. Além disso, você pode especificar se os dados devem ser compactados ou não. O serviço é compatível com algoritmos de compactação comuns que incluem GZip, Snappy compatível com Hadoop, Zip e Snappy. A divisão em lotes e a compactação de dados antes do carregamento permitem que você controle a velocidade com que você recebe novos dados em seus destinos.

O Firehose lê dados facilmente de mais de 20 fontes de dados, incluindo clusters do HAQM MSK e MSK Serverless, HAQM Kinesis Data Streams, Bancos de dados (demonstração), HAQM CloudWatch Logs, HAQM SNS, AWS IoT Core e muito mais.

O Firehose é compatível com os formatos de dados colunares, como Apache Parquet e Apache ORC, são otimizados para armazenamento e análises econômicos usando serviços como HAQM Athena, HAQM Redshift Spectrum, HAQM EMR e outras ferramentas baseadas no Hadoop. O Firehose pode converter o formato dos dados recebidos de JSON para Parquet ou ORC antes de armazená-los no HAQM S3, o que permite reduzir os custos de armazenamento e análises.

Particione dinamicamente dados de transmissão antes de entregá-los ao S3 usando chaves bem definidas estática ou dinamicamente como “customer_id” ou “transaction_id”.  O Firehose agrupa os dados por essas chaves e entrega em prefixos exclusivos de chave do S3, facilitando a realização de analytics econômicas de alta performance no S3 usando Athena, EMR e Redshift Spectrum. Saiba mais

Você pode configurar o HAQM Data Firehose para preparar os dados de streaming antes de serem carregados para os datastores. Basta selecionar uma função do AWS Lambda na guia de configuração do fluxo do HAQM Data Firehose no Console de Gerenciamento da AWS. O HAQM Data Firehose aplicará automaticamente essa função a cada registro de dados de entrada e carregará os dados transformados para os destinos. O HAQM Data Firehose oferece esquemas do Lambda pré-compilados para converter fontes de dados comuns, como logs do Apache e do sistema, nos formatos JSON e CSV. Você pode usar esses esquemas pré-compilados sem alteração, personalizá-los mais ou escrever suas próprias funções personalizadas. Você também poderá configurar o HAQM Data Firehose para repetir automaticamente os trabalhos com falha e fazer backup dos dados brutos de streaming. Saiba mais

O Firehose lê dados facilmente de mais de 20 fontes de dados, incluindo clusters do HAQM MSK e MSK Serverless, HAQM Kinesis Data Streams, HAQM CloudWatch Logs, HAQM SNS, AWS IoT Core e muito mais. Atualmente, o HAQM Data Firehose oferece suporte ao HAQM S3, HAQM Redshift, HAQM OpenSearch Service, Snowflake, tabelas do Apache Iceberg, tabelas do HAQM S3 (demonstração), endpoints HTTP, Datadog, New Relic, MongoDB e Splunk como destinos. Você pode especificar o bucket do HAQM S3 de destino, a tabela do HAQM Redshift, o domínio do HAQM OpenSearch Service, os endpoints HTTP genéricos ou um provedor de serviços no qual os dados devem ser carregados.

O HAQM Data Firehose disponibiliza a opção de criptografar seus dados automaticamente após eles terem sido carregados no destino. Como parte da configuração do fluxo do Firehose, você pode especificar uma chave de criptografia do AWS Key Management System (KMS).

O HAQM Data Firehose expõe várias métricas por meio do console, como também pelo HAQM CloudWatch, inclusive o volume de dados enviados, o volume de dados carregados no destino, o tempo de transferência da origem até o destino, os limites do fluxo do Firehose, o número de registros restritos e a taxa de sucesso de upload.

Com o HAQM Data Firehose, você paga apenas pelo volume de dados transmitidos pelo serviço e, se aplicável, pela conversão do formato de dados. Você também paga pela entrega e pela transferência de dados do HAQM VPC, quando aplicável. Não há taxas mínimas nem compromissos antecipados. Você não precisa de uma equipe para operar, escalar e manter aplicações personalizadas ou de infraestrutura para capturar e carregar dados de streaming.