Domande frequenti su HAQM SageMaker Lakehouse
Argomenti della pagina
Domande generaliDomande generali
Apri tuttoCos'è HAQM SageMaker Lakehouse?
HAQM SageMaker Lakehouse unifica tutti i tuoi dati nei data lake di HAQM Simple Storage Service (HAQM S3) e nei data warehouse di HAQM Redshift, aiutandoti a creare potenti applicazioni di analisi e di IA/ML su una singola copia dei dati. SageMaker Lakehouse ti offre la flessibilità di accedere ai dati e sottoporli a query con tutti gli strumenti e i motori compatibili con Apache Iceberg. Proteggi i tuoi dati nel lakehouse definendo autorizzazioni che vengono applicate a tutti gli strumenti e i motori di analisi e machine learning (ML). Porta i dati dai database e dalle applicazioni operative nel lakehouse in tempo quasi reale tramite integrazioni Zero-ETL. Inoltre, accedi ai dati ed esegui query sul posto con funzionalità di query federate su origini dati di terze parti.
Quali sono i vantaggi di SageMaker Lakehouse?
SageMaker Lakehouse:
a) Riduce i silos di dati fornendo un accesso unificato su data lake HAQM S3 e data warehouse HAQM Redshift. I dati provenienti da database e applicazioni operativi possono essere inseriti nel tuo lakehouse quasi in tempo reale per analisi e ML con pipeline di estrazione, trasformazione e caricamento (ETL) con uso ridotto o senza codice. Puoi anche utilizzare centinaia di connettori e 13 funzionalità di query federate per accedere ai dati da AWS e da origini esterne.
b) Offre la flessibilità di accedere ed eseguire query su tutti i tuoi dati sul posto, da un'ampia gamma di servizi AWS, strumenti e motori open source e di terze parti, compatibili con Apache Iceberg. Puoi utilizzare strumenti e motori di analisi a tua scelta come SQL, Apache Spark, business intelligence (BI) e strumenti di IA/ML e collaborare con una singola copia dei dati archiviati su HAQM S3 o HAQM Redshift.
c) Migliora la sicurezza aziendale con un meccanismo di controllo degli accessi integrato che protegge i dati quando vi si accede da servizi AWS integrati, come HAQM Redshift, HAQM Athena o HAQM EMR oppure motori di terze parti compatibili con Apache Iceberg.
Come funziona SageMaker Lakehouse?
SageMaker Lakehouse è accessibile direttamente da HAQM SageMaker Unified Studio (anteprima). I dati provenienti da diverse origini sono organizzati in container logici chiamati cataloghi in SageMaker Lakehouse. Ogni catalogo rappresenta dati provenienti da origini dati esistenti come data warehouse, data lake o database di HAQM Redshift. È possibile creare nuovi cataloghi direttamente nel lakehouse per archiviare i dati in HAQM S3 o HAQM Redshift Managed Storage (RMS). È possibile accedere ai dati in SageMaker Lakehouse da motori compatibili con Apache Iceberg come Apache Spark, Athena o HAQM EMR. Inoltre, questi cataloghi possono essere individuati come database nei data warehouse di HAQM Redshift, consentendoti di utilizzare i tuoi strumenti SQL e analizzare i dati del tuo lakehouse.
Funzionalità
Apri tuttoIn che modo SageMaker Lakehouse offre un controllo unificato degli accessi ai dati?
SageMaker Lakehouse unifica il controllo degli accessi ai dati con due funzionalità: 1) SageMaker Lakehouse consente di definire autorizzazioni granulari. Queste autorizzazioni vengono applicate da motori di query come HAQM EMR, Athena e HAQM Redshift. 2) SageMaker Lakehouse consente di accedere direttamente ai tuoi dati, eliminando la necessità di farne delle copie. È possibile mantenere una singola copia dei dati e un unico set di policy di controllo degli accessi per usufruire del controllo unificato e granulare degli accessi in SageMaker Lakehouse.
Come funziona SageMaker Lakehouse con i servizi AWS esistenti come il Catalogo dati AWS Glue, AWS Lake Formation e HAQM Redshift?
SageMaker Lakehouse è basato su più cataloghi tecnici, tra cui il Catalogo dati AWS Glue, Lake Formation e HAQM Redshift per fornire un accesso unificato ai dati tra data lake e data warehouse. SageMaker Lakehouse utilizza il Catalogo dati AWS Glue e Lake Formation per archiviare le definizioni e le autorizzazioni delle tabelle. Le autorizzazioni dettagliate di Lake Formation sono disponibili per le tabelle definite in SageMaker Lakehouse. Puoi gestire le definizioni delle tabelle nel Catalogo dati AWS Glue e definire autorizzazioni granulari, ad esempio a livello di tabella, a livello di colonna e a livello di cella, per proteggere i tuoi dati. Inoltre, utilizzando le funzionalità di condivisione dei dati tra account, puoi abilitare la condivisione senza copie per rendere disponibili i dati per una collaborazione sicura.
Ho bisogno di un software client per accedere alle API Apache Iceberg fornite da SageMaker Lakehouse?
Sì. La libreria client open source di Apache Iceberg è necessaria per accedere a SageMaker Lakehouse. I clienti che utilizzano motori open source di terze parti o autogestiti come Apache Spark o Trino devono includere la libreria client di Apache Iceberg nei loro motori di query per accedere a SageMaker Lakehouse.
Posso usare SageMaker Lakehouse per scrivere dati nel mio data warehouse HAQM Redshift utilizzando Apache Spark?
Sì, tramite una libreria client di Apache Iceberg, puoi leggere e scrivere dati sul tuo HAQM Redshift esistente dai motori Apache Spark su servizi AWS come HAQM EMR, AWS Glue, Athena e HAQM SageMaker o Apache Spark di terze parti. Tuttavia, è necessario disporre delle autorizzazioni di scrittura appropriate relative alle tabelle per scrivere dati su di esse.
Posso unire le tabelle del mio data lake e del data warehouse di HAQM Redshift su SageMaker Lakehouse?
Sì, puoi unire le tabelle del tuo data lake su HAQM S3 con quelle del tuo data warehouse HAQM Redshift su più database utilizzando un motore a tua scelta, come Apache Spark.
Migrazione
Apri tuttoDevo eseguire la migrazione dei miei dati per utilizzare SageMaker Lakehouse?
No, non è necessario eseguire la migrazione dei dati per utilizzare SageMaker Lakehouse. SageMaker Lakehouse consente di accedere ed eseguire query sui tuoi dati sul posto, con lo standard aperto di Apache Iceberg. Puoi accedere direttamente ai tuoi dati nei data lake di HAQM S3 e nei data warehouse di HAQM Redshift. I dati provenienti da database e applicazioni operativi possono essere inseriti nel lakehouse quasi in tempo reale attraverso le integrazioni Zero-ETL disponibili, senza dover mantenere infrastrutture o pipeline complesse. Puoi anche utilizzare funzionalità di query federate per accedere ai tuoi dati sul posto. Oltre a queste, puoi utilizzare centinaia di connettori AWS Glue per l'integrazione con le tue origini dati esistenti.
Attualmente utilizzo HAQM Redshift. Come posso portare il mio data warehouse HAQM Redshift su SageMaker Lakehouse?
Se sei già un utente HAQM Redshift, puoi registrare il tuo data warehouse HAQM Redshift con SageMaker Lakehouse in pochi semplici passaggi e senza eseguire la migrazione dei tuoi dati. Segui i passaggi indicati nella guida per gli sviluppatori.
Attualmente utilizzo un data lake HAQM S3. Come posso portare il mio data lake in SageMaker Lakehouse?
Se hai configurato il tuo data lake HAQM S3 utilizzando il Catalogo dati AWS Glue, non devi apportare alcuna modifica.
Integrazioni Zero-ETL
Apri tuttoQuali sono le diverse integrazioni Zero-ETL disponibili con SageMaker Lakehouse?
SageMaker Lakehouse supporta integrazioni Zero-ETL con HAQM DynamoDB, HAQM Aurora e HAQM RDS per MySQL e otto applicazioni: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook ads, Instagram ads, Zendesk e SAP.
Come posso accedere alle integrazioni Zero-ETL con SageMaker Lakehouse?
Puoi configurare e monitorare le tue integrazioni Zero-ETL tramite la console AWS Glue all'interno di HAQM SageMaker Data Processing con AWS Glue. Una volta inseriti i dati, è possibile accedere ed eseguire query sui dati dai motori di query compatibili con Apache Iceberg. Per maggiori dettagli, visita la pagina sulle integrazioni Zero-ETL.
Qual è il modello di prezzo per Zero-ETL?
Per ulteriori informazioni, visita le pagine dei prezzi di SageMaker Lakehouse e AWS Glue.
Prezzi
Apri tuttoQual è il prezzo di SageMaker Lakehouse?
Visita la pagina dei prezzi di SageMaker Lakehouse per maggiori dettagli.
Disponibilità
Apri tuttoIn quali Regioni AWS è disponibile SageMaker Lakehouse?
SageMaker Lakehouse è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Hong Kong), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Stoccolma) e Sud America (San Paolo).
SageMaker Lakehouse offre uno SLA?
Sì. SageMaker Lakehouse archivia i metadati nel Catalogo dati AWS Glue e offre lo stesso SLA di HAQM Glue.
Nozioni di base
Apri tuttoCome posso iniziare a usare SageMaker Lakehouse?
Per iniziare, puoi accedere al tuo dominio SageMaker utilizzando le tue credenziali aziendali (ad esempio, Okta) su SageMaker Unified Studio. In SageMaker Unified Studio, gli amministratori possono creare progetti in pochi passaggi scegliendo un profilo di progetto specifico. È quindi possibile scegliere un progetto con cui lavorare con SageMaker Lakehouse. Una volta selezionato un progetto, ottieni una visione unificata di dati, motori di query e strumenti per sviluppatori in un unico posto. Utenti come ingegneri e analisti dei dati possono quindi eseguire query sui dati utilizzando uno strumento a loro scelta. Ad esempio, quando un ingegnere dei dati utilizza un notebook ed esegue il comando Spark per elencare le tabelle, individua tutte le tabelle del data warehouse e del data lake a cui ha accesso. Possono quindi eseguire comandi per leggere e scrivere dati nelle tabelle archiviate fisicamente nei data lake di HAQM S3 o nei data warehouse di HAQM Redshift. Allo stesso modo, quando un analista dei dati esegue i comandi SQL di HAQM Redshift da un editor SQL, ottiene la stessa visualizzazione unificata dei dati e può leggerli e scriverli in queste tabelle. Con i tuoi strumenti preferiti (editor SQL o notebook), puoi creare nuove tabelle in HAQM S3 o HAQM Redshift. Esegui query su viste materializzate di HAQM Redshift per accelerare le prestazioni sulle tabelle dei tuoi data lake. Oltre a SageMaker Unified Studio, SageMaker Lakehouse è accessibile anche dalla Console di gestione AWS, dalle API AWS Glue, dall'Interfaccia della linea di comando AWS (AWS CLI) o dagli SDK AWS. Per ulteriori informazioni, consulta la pagina Documentazione.