SageMaker Data Processing は、HAQM Athena、HAQM EMR、AWS Glue、および HAQM Managed Workflows for Apache Airflow (HAQM MWAA) の処理機能を使用して、データの分析、準備、統合、オーケストレーションを行います。Apache Spark などのオープンソースのデータ処理フレームワークを利用して、Trino での大規模なデータ分析や、Apache Flink や Apache Spark でのリアルタイム分析のシームレスな構築を実行できます。
SageMaker Data Processing は、大規模なデータ調査、データ変換ジョブの構築、オーケストレーション、データパイプラインのデプロイに役立ちます。Apache Spark、Apache Airflow、Apache Flink、Trino などのコスト効率性に優れたオープンソースの API 互換バージョンを使用して、パフォーマンスを向上させ、従来のオープンソースシステムよりも迅速にインサイトを提供します。SageMaker Data Processing では、ゼロ ETL 統合、フェデレーションクエリ機能、およびコネクタを通じて HAQM SageMaker Lakehouse 内のデータソースにアクセスできます。
いいえ。SageMaker に移行する必要はありません。HAQM EMR、Athena、AWS Glue、および HAQM MWAA は現在と同じように引き続き使用できますが、統合ツール、組み込みのデータガバナンス、簡素化された SageMaker Lakehouse アーキテクチャを利用するためにも、SageMaker の使用を開始することをお勧めします。
HAQM EMR、Athena、または AWS Glue で作成して使用している現行のコード、クエリ、ジョブ、およびその他リソースに影響はありません。希望する場合は、これらのサービスを引き続き新しいワークロードに活用できます。HAQM Elastic Compute Cloud (HAQM EC2) クラスター上の HAQM EMR など、これらのサービスで作成されたリソースは SageMaker に表示されるため、分析や AI アプリケーションの開発が簡単になります。SageMaker では、新しい開発エクスペリエンスに加えて、HAQM EMR、AWS Glue、および Athena に組み込まれている既存の開発エクスペリエンスも引き続き利用できます。
SageMaker では、AWS Glue の最新バージョンである AWS Glue 5.0 を利用できます。AWS Glue 5.0 はデータ処理ワークロードを高速にし、パフォーマンスが最適化された最新の Apache Spark 3.5.2 ランタイムを提供するので、より迅速なインサイトのために開発、実行、スケールすることができます。詳細については、AWS Glue をご覧ください。