投稿日: Nov 29, 2022
HAQM EMR では、HAQM Redshift の Apache Spark との統合を発表します。HAQM Redshift クラスターからデータを消費して書き込むことができる Spark アプリケーションをデータエンジニアが構築および実行するのに、この統合が役立ちます。HAQM EMR 6.9 以降で、EMR - EC2、EKS、サーバーレスのすべての 3 つのデプロイモデルにわたってこの統合を利用できます。
この統合を使用すると、ETL ワークフローの一部として Redshift テーブルに直接書き込むアプリケーションを構築したり、Redshift のデータを別のソースのデータと結合したりできます。デベロッパーは Redshift テーブルからのデータを Spark データフレームにロードしたり、Redshift テーブルにデータを書き込んだりできます。デベロッパーは Redshift に接続するためのオープンソースコネクターのダウンロードについて心配する必要はありません。
HAQM Redshift の Apache Spark との統合により、Redshift データにアクセスする HAQM EMR のアプリケーションは、既存の Redshift-Spark コネクターと比較して最大 10 倍速く実行できます。結合、集計、並べ替え、スカラー関数などのリレーショナル操作を Spark から Redshift にプッシュダウンし、クエリパフォーマンスを向上させます。IAM ベースのロールをサポートしてシングルサインオン機能を有効にし、AWS Secrets Manager と統合してキーを安全に管理します。
HAQM Redshift の Apache Spark との統合は、HAQM EMR、HAQM EMR on EKS、HAQM サーバーレスが利用可能なすべてのリージョンで利用できます。使用を開始するには、HAQM EMR、HAQM EMR on EKS、HAQM EMR Serverless のドキュメントをご覧ください。