Veröffentlicht am: Nov 29, 2022

HAQM EMR gibt HAQM-Redshift-Integration mit Apache Spark bekannt. Diese Integration hilft Dateningenieuren beim Erstellen und Ausführen von Spark-Anwendungen, die Daten von einem HAQM Redshift-Cluster abrufen und schreiben können. Ab HAQM EMR 6.9 ist diese Integration für alle drei Bereitstellungsmodelle für EMR verfügbar - EC2, EKS und Serverless.

Sie können diese Integration nutzen, um Anwendungen zu erstellen, die als Teil Ihrer ETL-Workflows direkt in Redshift-Tabellen schreiben oder um Daten in Redshift mit Daten in anderen Quellen zu kombinieren. Entwickler können Daten aus Redshift-Tabellen in Spark-Datenrahmen laden oder Daten in Redshift-Tabellen schreiben. Entwickler müssen sich nicht um das Herunterladen von Open-Source-Konnektoren kümmern, um eine Verbindung zu Redshift herzustellen.

Die HAQM Redshift-Integration für Apache Spark ermöglicht Anwendungen auf HAQM EMR, die auf Redshift-Daten zugreifen, eine bis zu 10-mal schnellere Ausführung im Vergleich zu bestehenden Redshift-Spark-Konnektoren. Es unterstützt die Übertragung von relationalen Operationen wie Joins, Aggregationen, Sortierungen und skalaren Funktionen von Spark zu Redshift, um die Abfrageleistung zu verbessern. Es unterstützt IAM-basierte Rollen, um Single-Sign-On-Funktionen zu ermöglichen, und ist mit AWS Secrets Manager für die sichere Verwaltung von Schlüsseln integriert.

Die HAQM-Redshift-Integration für Apache Spark ist in allen Regionen verfügbar, in denen HAQM EMR, HAQM EMR auf EKS und HAQM Serverless verfügbar sind. Sehen Sie sich zum Einstieg unsere Dokumentation für HAQM EMR, HAQM EMR auf EKS und HAQM EMR Serverless an.