投稿日: Nov 22, 2022

HAQM EMR Serverless では、Spark ワークフローと Hive ワークフローを使用して HAQM DynamoDB でデータを読み書きできるようになりました。EMR Serverless の Spark アプリケーションまたは Hive アプリケーションから直接、HAQM DynamoDB のテーブルのエクスポート、インポート、クエリ、結合を実行できます。HAQM DynamoDB はフルマネージド NoSQL データベースで、1 桁台のミリ秒のレイテンシー、予測可能なパフォーマンス、シームレスなスループット、ストレージのスケーラビリティを提供することで、要件の厳しいアプリケーションのレイテンシーとスループットの要件を満たします。 

AWS のユーザーは、ダウンストリームでの分析のために、HAQM DynamoDB に保存されているデータを効率的かつ大規模に処理する必要があることが多くあります。HAQM EMR チームは emr-dynamodb-connector を構築してオープンソースとして公開し、お客様が Apache Spark アプリケーションと Apache Hive アプリケーションを使用して HAQM DynamoDB に簡単にアクセスし、設定できるようにしました。このコネクタでは複数の分析ユースケースに対応しており、HAQM DynamoDB のデータを効率的に処理したり、HAQM DynamoDB のテーブルを HAQM S3、HAQM RDS、HAQM EMR Serverless からアクセスできるその他のデータストアに保存されている外部のテーブルと結合したりできます。HAQM EMR リリース 6.9 では、HAQM EMR Serverless アプリケーションを使用して HAQM DynamoDB コネクタのすべての利点を利用できます。クロスリージョンアクセスとクロスアカウントアクセス両方の HAQM DynamoDB テーブルを使用できます。 

また、EMR Serverless では、Spark アプリケーションと Hive アプリケーションからデータを処理するために他の AWS アカウントから特定の HAQM S3 バケットにアクセスできるようになりました。AWS のお客様は複数の AWS アカウントを使用して、異なるプロジェクトや事業部門を適切に分離できます。クロスアカウント機能により、複数のアカウントに分散しているデータレイクを一元化されたアプローチで簡単に保護し、管理できるようになります。HAQM S3 へのクロスアカウントアクセスにより、EMR Serverless の Spark アプリケーションまたは Hive アプリケーションをある AWS アカウントで使用して、特定のバケットに保存されているデータに他の AWS アカウントからアクセスして処理できます。 

これらの機能は、EMR Serverless が提供されているすべてのリージョンでご利用いただけます。詳細については、HAQM EMR Serverless のドキュメントをご覧ください。