Publicado en: Nov 29, 2022
HAQM EMR anuncia la integración de HAQM Redshift con Apache Spark. Esta integración ayuda a los ingenieros de datos a crear y ejecutar aplicaciones Spark que pueden consumir y escribir datos desde un clúster de HAQM Redshift. A partir de HAQM EMR 6.9, esta integración está disponible en los tres modelos de implementación para EMR: EC2, EKS y sin servidor.
Puede usar esta integración para crear aplicaciones que escriban directamente en las tablas de Redshift como parte de sus flujos de trabajo de ETL, o para combinar datos en Redshift con datos de otra fuente. Los desarrolladores pueden cargar datos de tablas de Redshift a marcos de datos de Spark o escribir datos en tablas de Redshift. Además, ya no tienen que preocuparse por descargar conectores de código abierto para conectarse a Redshift.
La integración de HAQM Redshift para Apache Spark permite que las aplicaciones en HAQM EMR que acceden a los datos de Redshift se ejecuten hasta 10 veces más rápido en comparación con los conectores Redshift-Spark existentes. Admite la reducción de operaciones relacionales, como uniones, agregaciones, clasificación y funciones escalares de Spark a Redshift para mejorar el rendimiento de sus consultas. Admite roles basados en IAM para habilitar capacidades de inicio de sesión único y se integra con AWS Secrets Manager para administrar claves de forma segura.
La integración de HAQM Redshift para Apache Spark está disponible en todas las regiones donde están disponibles HAQM EMR, HAQM EMR en EKS y HAQM sin servidor. Para comenzar, consulte nuestra documentación para HAQM EMR, HAQM EMR en EKS y HAQM EMR sin servidor.