Publié le: Nov 29, 2022

HAQM EMR annonce l'intégration d'HAQM Redshift à Apache Spark. Cette intégration aide les ingénieurs de données à créer et à exécuter des applications Spark qui peuvent consommer et écrire des données à partir d'un cluster HAQM Redshift. À partir d'HAQM EMR 6.9, cette intégration est disponible dans les trois modèles de déploiement pour EMR :EC2, EKS et Sans serveur.

Vous pouvez utiliser cette intégration pour construire des applications qui écrivent directement dans les tables Redshift dans le cadre de vos workflows ETL ou pour combiner les données dans Redshift avec des données dans une autre source. Les développeurs peuvent charger les données de tables Redshift dans des cadres de données Spark ou écrire des données dans des tables Redshift. Les développeurs n'ont pas à se soucier du téléchargement de connecteurs open source pour se connecter à Redshift.

L'intégration d'HAQM Redshift pour Apache Spark permet aux applications sur HAQM EMR qui accèdent aux données Redshift de s'exécuter jusqu'à 10 fois plus vite par rapport aux connecteurs Redshift-Spark existants. Elle prend en charge le transfert d'opérations relationnelles comme les jointures, les agrégations, les tris et les fonctions scalaires de Spark vers Redshift pour améliorer les performances de vos requêtes. Elle prend en charge les rôles basés sur IAM pour permettre des capacités d'authentification unique et s'intègre à AWS Secrets Manager pour gérer les clés en toute sécurité.

L'intégration d'HAQM Redshift pour Apache Spark est disponible dans toutes les régions où HAQM EMR, HAQM EMR sur EKS et HAQM sans serveur sont disponibles. Pour commencer, consultez notre documentation sur HAQM EMR, HAQM EMR sur EKS et HAQM EMR sans serveur.