Häufig gestellte Fragen zu HAQM SageMaker Lakehouse

Allgemeines

Alles öffnen

HAQM SageMaker Lakehouse vereinheitlicht all Ihre Daten aus Data Lakes von HAQM Simple Storage Service (HAQM S3) und HAQM Redshift Data Warehouses und hilft Ihnen so, leistungsstarke Analytik- und KI/ML-Anwendungen auf einer einzigen Datenkopie zu erstellen. SageMaker Lakehouse bietet Ihnen die Flexibilität, mit allen Apache-Iceberg-kompatiblen Tools und Engines auf Ihre Daten zuzugreifen und diese abzufragen. Schützen Sie Ihre Daten im Lakehouse, indem Sie Berechtigungen definieren, die in allen Tools und Engines für Analytik und Machine Learning (ML) durchgesetzt werden. Bringen Sie Daten aus Betriebsdatenbanken und Anwendungen durch Null-ETL-Integrationen nahezu in Echtzeit in Ihr Lakehouse. Darüber hinaus können Sie mit Verbundabfragefunktionen aus Datenquellen von Drittanbietern direkt auf Daten zugreifen und diese abfragen.

SageMaker Lakehouse:

a) Reduziert Datensilos durch einheitlichen Zugriff auf Ihre Daten in HAQM S3 Data Lakes und HAQM Redshift Data Warehouses. Daten aus Betriebsdatenbanken und Anwendungen können nahezu in Echtzeit in Ihr Lakehouse für Analytik und ML mit Pipelines von Extract, Transform, Load (ETL) ohne Code oder mit geringem Code aufgenommen werden. Sie können auch Hunderte von Konnektoren und 13 Verbundabfragefunktionen verwenden, um auf Daten von AWS und Quellen außerhalb von AWS zuzugreifen.

b) Bietet Ihnen die Flexibilität, direkt auf all Ihre Daten zuzugreifen und diese abzufragen, und zwar über eine Vielzahl von AWS-Services sowie Open-Source-Tools und Engines von Drittanbietern, die mit Apache Iceberg kompatibel sind. Sie können Analysetools und Engines Ihrer Wahl wie SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools verwenden und mit einer einzigen Kopie der in HAQM S3 oder HAQM Redshift gespeicherten Daten zusammenarbeiten.

c) Verbessert die Unternehmenssicherheit mit einem integrierten Zugriffskontrollmechanismus, der Ihre Daten schützt, wenn Sie über integrierte AWS-Services wie HAQM Redshift, HAQM Athena oder HAQM EMR oder mit Apache Iceberg kompatiblen Engines von Drittanbietern darauf zugreifen.

Auf SageMaker Lakehouse kann direkt über HAQM SageMaker Unified Studio (Vorversion) zugegriffen werden. Daten aus verschiedenen Quellen sind in logischen Containern organisiert, die in SageMaker Lakehouse als Kataloge bezeichnet werden. Jeder Katalog stellt Daten entweder aus vorhandenen Datenquellen wie HAQM Redshift Data Warehouses, Data Lakes oder Datenbanken dar. Neue Kataloge können direkt im Lakehouse erstellt werden, um Daten in HAQM S3 oder HAQM Redshift Managed Storage (RMS) zu speichern. Auf Daten in SageMaker Lakehouse kann über eine mit Apache Iceberg kompatible Engine wie Apache Spark, Athena oder HAQM EMR zugegriffen werden. Darüber hinaus können diese Kataloge als Datenbanken in HAQM Redshift Data Warehouses erkannt werden, sodass Sie Ihre SQL-Tools verwenden und Ihre Lakehouse-Daten analysieren können.

Funktionen

Alles öffnen

SageMaker Lakehouse vereinheitlicht die Zugriffskontrolle auf Ihre Daten mit zwei Funktionen: 1) Mit SageMaker Lakehouse können Sie differenzierte Berechtigungen definieren. Diese Berechtigungen werden von Abfrage-Engines wie HAQM EMR, Athena und HAQM Redshift durchgesetzt. 2) SageMaker Lakehouse ermöglicht Ihnen den direkten Zugriff auf Ihre Daten, sodass Sie keine Datenkopien erstellen müssen. Sie können eine einzige Kopie der Daten und einen einzigen Satz von Zugriffskontrollrichtlinien verwalten, um von einer einheitlichen, differenzierten Zugriffskontrolle in SageMaker Lakehouse zu profitieren.

SageMaker Lakehouse basiert auf mehreren technischen Katalogen im AWS-Glue-Datenkatalog, Lake Formation und HAQM Redshift, um einen einheitlichen Datenzugriff über Data Lakes und Data Warehouses hinweg zu ermöglichen. SageMaker Lakehouse verwendet den AWS-Glue-Datenkatalog und Lake Formation, um Tabellendefinitionen und Berechtigungen zu speichern. Differenzierte Berechtigungen für Lake Formation sind für Tabellen verfügbar, die in SageMaker Lakehouse definiert sind. Sie können Ihre Tabellendefinitionen im AWS-Glue-Datenkatalog verwalten und differenzierte Berechtigungen wie Berechtigungen auf Tabellen-, Spalten- und Zellenebene definieren, um Ihre Daten zu schützen. Darüber hinaus können Sie mithilfe der kontoübergreifenden Datenaustauschfunktionen die gemeinsame Nutzung von Daten ohne Kopien aktivieren, um Daten für eine sichere Zusammenarbeit verfügbar zu machen.

Ja. Für den Zugriff auf SageMaker Lakehouse ist die Open-Source-Clientbibliothek von Apache Iceberg erforderlich. Kunden, die Drittanbieter- oder selbstverwaltete Open-Source-Engines wie Apache Spark oder Trino verwenden, müssen die Apache-Iceberg-Clientbibliothek in ihre Abfrage-Engines aufnehmen, um auf SageMaker Lakehouse zugreifen zu können.

Ja, mithilfe einer Apache-Iceberg-Client-Bibliothek können Sie Daten von Apache-Spark-Engines auf AWS-Services wie HAQM EMR, AWS Glue, Athena und HAQM SageMaker oder dem Drittanbieter Apache Spark lesen und in Ihr vorhandenes HAQM Redshift schreiben. Sie müssen jedoch über die entsprechenden Schreibberechtigungen für die Tabellen verfügen, um Daten in sie zu schreiben.

Ja, Sie können Ihre Data-Lake-Tabellen auf HAQM S3 mit den Tabellen in Ihrem HAQM Redshift Data Warehouse über mehrere Datenbanken hinweg verbinden, indem Sie eine Engine Ihrer Wahl wie Apache Spark verwenden.

Migration

Alles öffnen

Nein, Sie müssen Ihre Daten nicht migrieren, um SageMaker Lakehouse verwenden zu können. Mit SageMaker Lakehouse können Sie mit dem offenen Standard von Apache Iceberg direkt auf Ihre Daten zugreifen und diese abfragen. Sie können direkt auf Ihre Daten in HAQM S3 Data Lakes und HAQM Redshift Data Warehouses zugreifen. Daten aus Betriebsdatenbanken und Anwendungen können über verfügbare Null-ETL-Integrationen nahezu in Echtzeit in das Lakehouse aufgenommen werden, ohne dass die Infrastruktur oder komplexe Pipelines gewartet werden müssen. Sie können auch Funktionen für Verbundabfragen verwenden, um auf Ihre lokalen Daten zuzugreifen. Darüber hinaus können Sie Hunderte von AWS-Glue-Konnektoren verwenden, um sie in Ihre vorhandenen Datenquellen zu integrieren.

Wenn Sie bereits HAQM-Redshift-Benutzer sind, können Sie Ihr HAQM Redshift Data Warehouse in wenigen einfachen Schritten und ohne Migration Ihrer Daten bei SageMaker Lakehouse registrieren. Folgen Sie den Schritten im Entwicklerhandbuch.

Wenn Sie Ihren HAQM S3 Data Lake mithilfe des AWS-Glue-Datenkatalogs konfiguriert haben, müssen Sie keine Änderungen vornehmen.

Null-ETL-Integrationen

Alles öffnen

SageMaker Lakehouse unterstützt Null-ETL-Integrationen mit HAQM DynamoDB, HAQM Aurora und HAQM RDS für MySQL sowie acht Anwendungen: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk und SAP.

Sie können Ihre Null-ETL-Integrationen über die AWS-Glue-Konsole in der HAQM-SageMaker-Datenverarbeitung mit AWS Glue konfigurieren und überwachen. Sobald die Daten aufgenommen wurden, können Sie auf die Daten von Abfrage-Engines, die mit Apache Iceberg kompatibel sind, zugreifen und diese abfragen. Weitere Informationen finden Sie bei den Null-ETL-Integrationen.

Weitere Informationen zur Preisgestaltung finden Sie auf den Preisseiten von SageMaker Lakehouse und AWS Glue.

Preise

Alles öffnen

Weitere Informationen finden Sie unter SageMaker-Lakehouse-Preise.

Verfügbarkeit

Alles öffnen

SageMaker Lakehouse ist in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Hongkong), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Stockholm) und Südamerika (Sao Paulo) verfügbar.

Ja. SageMaker Lakehouse speichert Metadaten im AWS-Glue-Datenkatalog und bietet dasselbe SLA wie HAQM Glue an.

Erste Schritte

Alles öffnen

Zu Beginn können Sie sich mit Ihren Unternehmensanmeldeinformationen (z. B. Okta) in SageMaker Unified Studio bei Ihrer SageMaker-Domain anmelden. In wenigen kurzen Schritten in SageMaker Unified Studio können Administratoren Projekte erstellen, indem sie ein bestimmtes Projektprofil auswählen. Sie können dann ein Projekt auswählen, um mit dem SageMaker Lakehouse zu arbeiten. Sobald ein Projekt ausgewählt ist, erhalten Sie eine einheitliche Ansicht von Daten, Abfrage-Engines und Entwicklertools an einem Ort. Benutzer wie Dateningenieure und Datenanalysten können die Daten dann mit einem Tool ihrer Wahl abfragen. Wenn ein Dateningenieur beispielsweise ein Notebook verwendet und den Spark-Befehl ausgibt, um Tabellen aufzuführen, werden alle Data-Warehouse- und Data-Lake-Tabellen ermittelt, auf die er Zugriff hat. Anschließend können sie Befehle zum Lesen und Schreiben von Daten in die Tabellen ausführen, die physisch entweder in HAQM S3 Data Lakes oder HAQM Redshift Data Warehouses gespeichert sind. Ebenso erhält ein Datenanalyst, wenn er HAQM Redshift-SQL-Befehle in einem SQL-Editor ausführt, dieselbe einheitliche Ansicht der Daten und kann Daten in diese Tabellen lesen und schreiben. Mit Ihren bevorzugten Tools (SQL-Editor oder Notebook) können Sie neue Tabellen in HAQM S3 oder HAQM Redshift erstellen. Fragen Sie materialisierte Ansichten von HAQM Redshift ab, um die Leistung Ihrer Data-Lake-Tabellen zu beschleunigen. Neben dem SageMaker Unified Studio ist SageMaker Lakehouse auch über die AWS-Managementkonsole, die AWS-Glue-APIs, die AWS Command Line Interface (AWS CLI) oder die AWS SDKs zugänglich. Weitere Informationen finden Sie auf der Dokumentationsseite.