HAQM SageMaker Lakehouse に関するよくある質問

HAQM SageMaker Lakehouse は、HAQM Simple Storage Service (HAQM S3) データレイクと HAQM Redshift データウェアハウスにわたるすべてのデータを統合します。これは、データの 1 つのコピーで強力な分析と AI/ML アプリケーションを構築するのに役立ちます。SageMaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、データに柔軟にアクセスしてクエリを実行できます。すべての分析および機械学習 (ML) ツールとエンジンに適用されるアクセス許可を定義して、レイクハウス内のデータを保護します。ゼロ ETL 統合により、運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込むことができます。さらに、サードパーティーのデータソース全体にわたるフェデレーテッドクエリ機能を使用して、インプレースでデータにアクセスし、クエリを実行できます。

SageMaker Lakehouse:

a) HAQM S3 データレイクと HAQM Redshift データウェアハウスにわたるデータへの統合アクセスを提供することで、データサイロを削減します。運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込み、ノーコードまたはローコードの抽出、変換、ロード (ETL) パイプラインを使用して分析や ML を実行できます。また、数百のコネクタと 13 のフェデレーテッドクエリ機能を使用して、AWS のデータや AWS 外のソースにアクセスできます。

b) Apache Iceberg と互換性のある、さまざまな AWS サービス、オープンソース、サードパーティーのツールやエンジンから、すべてのデータにインプレースで柔軟にアクセスおよびクエリできます。SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/ML ツールなど、お好みの分析ツールとエンジンを使用し、HAQM S3 または HAQM Redshift に保存されているデータの 1 つのコピーを使用して共同作業を行うことができます。

c) HAQM Redshift、HAQM Athena、HAQM EMR などの統合された AWS サービスや、サードパーティーの Apache Iceberg 互換エンジンからアクセスしたときにデータを保護する組み込みアクセスコントロールメカニズムにより、エンタープライズセキュリティを向上させます。

SageMaker Lakehouse には HAQM SageMaker Unified Studio (プレビュー) から直接アクセスできます。さまざまなソースからのデータは、SageMaker Lakehouse のカタログと呼ばれる論理的なコンテナにまとめられています。各カタログは、HAQM Redshift データウェアハウス、データレイク、データベースなどの既存のデータソースからのデータを表します。新しいカタログはレイクハウスに直接作成して、HAQM S3 または HAQM Redshift マネージドストレージ (RMS) にデータを保存できます。SageMaker Lakehouse のデータには、Apache Spark、Athena、HAQM EMR などの Apache Iceberg 互換エンジンからアクセスできます。さらに、これらのカタログは HAQM Redshift データウェアハウスのデータベースとして検出できるため、SQL ツールを使用してレイクハウスのデータを分析できます。

SageMaker Lakehouse は、データへのアクセスコントロールを次の 2 つの機能によって統合します。1) SageMaker Lakehouse では、きめ細かなアクセス許可を定義できます。この許可は、HAQM EMR、Athena、HAQM Redshift などのクエリエンジンによって強制適用されます。2) SageMaker Lakehouse では、データへのインプレースアクセスが可能になり、データのコピーを作成する必要がなくなります。SageMaker Lakehouse では、データのコピーを 1 つとアクセスコントロールポリシーを 1 つだけ管理できるため、統一されたきめ細かなアクセスコントロールのメリットを享受できます。

SageMaker Lakehouse は、AWS Glue データカタログ、Lake Formation、HAQM Redshift の複数のテクニカルカタログに基づいて構築されており、データレイクとデータウェアハウス全体にわたる統一されたデータアクセスを提供します。SageMaker Lakehouse は AWS Glue データカタログと Lake Formation を使用してテーブル定義とアクセス許可を保存します。SageMaker Lakehouse で定義されたテーブルでは、Lake Formation のきめ細かなアクセス許可を使用できます。AWS Glue データカタログでテーブル定義を管理し、テーブルレベル、列レベル、セルレベルのアクセス許可などのきめ細かなアクセス許可を定義してデータを保護できます。さらに、クロスアカウントデータ共有機能を使用すると、コピーなしのデータ共有を有効にして、データを安全なコラボレーションに利用できるようになります。

はい。SageMaker Lakehouse にアクセスするには、オープンソースの Apache Iceberg クライアントライブラリが必要です。Apache Spark や Trino などのサードパーティー製またはセルフマネージド型のオープンソースエンジンを使用しているお客様は、SageMaker Lakehouse にアクセスするために、クエリエンジンに Apache Iceberg クライアントライブラリを組み込む必要があります。

はい。Apache Iceberg クライアントライブラリを使用すると、HAQM EMR、AWS Glue、Athena、HAQM SageMaker などの AWS サービスやサードパーティーの Apache Spark 上の Apache Spark エンジンから既存の HAQM Redshift に対してデータの読み取りと書き込みを実行できます。ただし、テーブルにデータを書き込むには、テーブルに対する適切な書き込み許可が必要です。

はい。Apache Spark などの好みのエンジンを使用して、HAQM S3 のデータレイクテーブルを複数のデータベースにわたる HAQM Redshift データウェアハウス内のテーブルと結合できます。

いいえ。SageMaker Lakehouse を使用するためにデータを移行する必要はありません。SageMaker Lakehouse では、Apache Iceberg のオープンスタンダードを利用して、インプレースでデータにアクセスしてクエリを実行できます。HAQM S3 データレイクと HAQM Redshift データウェアハウスのデータに直接アクセスできます。運用データベースやアプリケーションからのデータは、利用可能なゼロ ETL 統合を通じて、インフラストラクチャや複雑なパイプラインを維持することなく、ほぼリアルタイムでレイクハウスに取り込むことができます。フェデレーテッドクエリ機能を使用してインプレースデータにアクセスすることもできます。これらに加えて、数百の AWS Glue コネクタを使用して既存のデータソースと統合できます。

既に HAQM Redshift のユーザーである場合は、データを移行しなくても、いくつかの簡単な手順で HAQM Redshift データウェアハウスを SageMaker Lakehouse に登録できます。デベロッパーガイドの手順に従ってください。

AWS Glue データカタログを使用して HAQM S3 データレイクを設定した場合は、何も変更する必要はありません。

ゼロ ETL 統合

すべて開く

SageMaker Lakehouse は、HAQM DynamoDB、HAQM Aurora、HAQM RDS for MySQL の他、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、Instagram 広告、Zendesk、SAP の 8 つのアプリケーションとのゼロ ETL 統合をサポートしています。

AWS Glue で HAQM SageMaker Data Processing 内の AWS Glue コンソールを使用して、ゼロ ETL 統合を設定および監視できます。データが取り込まれると、Apache Iceberg 互換のクエリエンジンからデータにアクセスしてクエリを実行できます。詳細については、ゼロ ETL 統合にアクセスしてください。

料金の詳細については、SageMaker LakehouseAWS Glue の料金ページをご覧ください。

詳細については、SageMaker Lakehouse の料金をご覧ください。

可用性

すべて開く

SageMaker Lakehouse は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (香港)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)、南米 (サンパウロ) でご利用いただけます。

はい。SageMaker Lakehouse はメタデータを AWS Glue データカタログに保存し、HAQM Glue と同じ SLA を提供します。

開始方法

すべて開く

使用を開始するには、SageMaker Unified Studio で企業 (Okta など) の認証情報を使用して SageMaker ドメインにログインできます。SageMaker Unified Studio のいくつかの簡単なステップで、管理者は特定のプロジェクトプロファイルを選択してプロジェクトを作成できます。その後、SageMaker Lakehouse で作業するプロジェクトを選択できます。プロジェクトを選択すると、データ、クエリエンジン、デベロッパーツールが 1 か所にまとめられます。その後、データエンジニアやデータアナリストなどのユーザーは、お好みのツールを使用してデータをクエリできます。例えば、データエンジニアがノートブックを使用し、Spark コマンドを実行してテーブルを一覧表示すると、アクセスできるすべてのデータウェアハウステーブルとデータレイクテーブルが検出されます。その後、コマンドを実行して、HAQM S3 データレイクまたは HAQM Redshift データウェアハウスに物理的に保存されているテーブルにデータの読み取りと書き込みを行えます。同様に、データアナリストが SQL エディタから HAQM Redshift SQL コマンドを実行すると、データの同じ統合ビューが表示され、これらのテーブルに対してデータの読み取りと書き込みを実行できます。お好みのツール (SQL エディタまたはノートブック) から、HAQM S3 または HAQM Redshift で新しいテーブルを作成できます。HAQM Redshift マテリアライズドビューをクエリすると、データレイクテーブルのパフォーマンスが向上します。SageMaker Unified Studio に加えて、SageMaker Lakehouse には AWS マネジメントコンソール、AWS Glue API、AWS コマンドラインインターフェイス (AWS CLI)、または AWS SDK からもアクセスできます。詳細については、「ドキュメント」ページをご覧ください。