Características de HAQM Data Firehose

¿Por qué elegir HAQM Data Firehose?

HAQM Data Firehose ofrece la manera más sencilla de cargar datos de transmisión en almacenes de datos y herramientas de análisis. Data Firehose es un servicio completamente administrado que facilita el registro, la transformación y la carga de volúmenes masivos de datos de trasmisión desde cientos de miles de orígenes a HAQM S3, HAQM Redshift, HAQM OpenSearch Service, Snowflake, tablas de Apache Iceberg, tablas de HAQM S3 (vista previa), puntos de enlace HTTP genéricos y proveedores de servicios como Datadog, New Relic, MongoDB y Splunk. Esto permite realizar análisis y obtener información en tiempo real.

Flujos de Firehose

Open all

Un flujo de Firehose es la entidad subyacente de Firehose. Firehose se utiliza mediante la creación de un flujo de Firehose y el envío de datos a este.

Características principales

Open all

Con tan solo unos clics en la Consola de administración de AWS, puede lanzar HAQM Data Firehose y crear un flujo de entrega para cargar datos en HAQM S3, HAQM Redshift, HAQM OpenSearch Service, Snowflake,tablas de Apache Iceberg, tablas de HAQM S3 (vista previa), puntos de enlace HTTP, Datadog, New Relic, MongoDB o Splunk. Puede enviar datos al flujo de entrega mediante una llamada a la API de Firehose, o bien con la ejecución del agente Linux que ofrecemos en el origen de datos. Data Firehose carga continuamente los datos en los destinos especificados.

Una vez lanzado, se aumenta o reduce automáticamente el escalado vertical de flujos de Firehose para administrar gigabytes por segundo o más de velocidad de datos de entrada y mantener la latencia de los datos a los niveles que especifique para la transmisión, dentro de los límites. No se precisa de intervención ni mantenimiento.

Puede especificar un tamaño por lotes o un intervalo por lotes para controlar la rapidez con que los datos se cargan en los destinos. Por ejemplo, puede establecer el intervalo del lote entre cero segundos y 15 minutos. Asimismo, puede especificar si los datos deben comprimirse o no. El servicio admite algoritmos de compresión comunes, entre otros, GZip, Snappy compatible con Hadoop, Zip y Snappy. El agrupamiento y la compresión de datos antes de cargarlos permite controlar la rapidez con que se reciben nuevos datos en los destinos.

Firehose lee fácilmente los datos de más de 20 orígenes de datos, incluidos los clústeres sin servidor de HAQM MSK y MSK, HAQM Kinesis Data Streams, Bases de datos (vista previa), Registros de HAQM CloudWatch, HAQM SNS, AWS IoT Core y más.

Firehose admite los formatos de datos en columnas, como Apache Parquet y Apache ORC, que están optimizados para el análisis y el almacenamiento rentables mediante el uso de servicios como HAQM Athena, HAQM Redshift Spectrum, HAQM EMR y otras herramientas basadas en Hadoop. Firehose puede convertir el formato de datos de entrada de JSON a formatos Parquet u ORC antes de almacenarlos en HAQM S3 para ahorrar costos de almacenamiento y análisis.

Particione dinámicamente sus datos en streaming antes de la entrega a S3 mediante claves definidas de forma estática o dinámica como “customer_id” o “transaction_id”.  Firehose agrupa los datos según estas claves y realiza la entrega en prefijos de S3 con una clave única, lo que facilita la ejecución de análisis de alto rendimiento y rentables en S3 con Athena, EMR y Redshift Spectrum. Más información

Puede configurar HAQM Data Firehose para que prepare los datos de streaming antes de cargarlos en los almacenes de datos. Tan solo debe seleccionar una función de AWS Lambda desde la pestaña de configuración de flujo de HAQM Data Firehose en la consola de administración de AWS. HAQM Data Firehose aplicará automáticamente la función a todos los registros de datos de entrada y cargará los datos transformados en los destinos. HAQM Data Firehose proporciona esquemas de Lambda prediseñados para convertir orígenes de datos comunes, como los registros de Apache y del sistema, a formatos JSON y CSV. Puede utilizar estos esquemas prediseñados sin ningún cambio o personalizarlos más, o bien escribir sus propias funciones personalizadas. También puede configurar HAQM Data Firehose para que reintente de forma automática los trabajos con errores y para que cree copias de seguridad de los datos de streaming sin procesar. Obtenga más información

Firehose lee fácilmente los datos de más de 20 orígenes de datos, incluidos los clústeres de HAQM MSK y MSK sin servidor, HAQM Kinesis Data Streams, registros de HAQM CloudWatch, HAQM SNS, AWS IoT Core y más. Actualmente, HAQM Data Firehose admite, como destino, HAQM S3, HAQM Redshift, HAQM OpenSearch Service, Snowflake, tablas de Apache Iceberg, tablas de HAQM S3 (vista previa), puntos de enlace HTTP, Datadog, New Relic, MongoDB y Splunk. Puede especificar el bucket de HAQM S3, la tabla de HAQM Redshift, el dominio de HAQM OpenSearch Service, los puntos de enlace HTTP o el proveedor de servicio en el que deberían cargarse los datos.

HAQM Data Firehose ofrece la opción de que los datos se cifren automáticamente después de cargarlos en el destino. Como parte de la configuración del flujo de Firehose, puede especificar una clave de cifrado de AWS Key Management System (KMS).

HAQM Data Firehose expone varias métricas a través de la consola, así como en HAQM CloudWatch, entre las que se incluyen el volumen de datos enviados, el volumen de datos cargados en los destinos, los límites del flujo de Firehose, los números de registros acelerados y la tasa de éxito de la carga.

Con HAQM Data Firehose, solo paga por el volumen de datos que usted transmite a través del servicio y, si corresponde, por la conversión de formato de datos. También pagará por la entrega y la transferencia de datos a HAQM VPC cuando corresponda. No se requieren tarifas mínimas ni compromisos iniciales. No precisa de mano de obra para operar, escalar y mantener la infraestructura o aplicaciones personalizadas a fin de capturar y cargar los datos de streaming.