HAQM-SageMaker-Datenverarbeitung analysiert, bereitet, integriert und orchestriert Ihre Daten mit Verarbeitungsfunktionen von HAQM Athena, HAQM EMR, AWS Glue und HAQM Managed Workflows für Apache Airflow (MWAA). Sie können Open-Source-Datenverarbeitungs-Frameworks wie Apache Spark nutzen, Daten mit Trino im großen Maßstab analysieren und mit Apache Flink und Apache Spark nahtlos Echtzeitanalytik erstellen.
SageMaker-Datenverarbeitung hilft Ihnen dabei, Daten zu untersuchen, Datentransformationsaufträge zu erstellen, Datenpipelines in großem Umfang zu orchestrieren und bereitzustellen. Sie verbessert die Leistung und liefert schnellere Einblicke als herkömmliche Open-Source-Systeme mit kostengünstigen und Open-Source-API-kompatiblen Versionen von Apache Spark, Apache Airflow, Apache Flink, Trino und mehr. Die Datenverarbeitung ermöglicht den Zugriff auf Ihre Datenquellen in HAQM SageMaker Lakehouse über Null-ETL-Integrationen, Verbundabfragefunktionen und Konnektoren.
Nein, Sie müssen nicht zu SageMaker migrieren. Sie können HAQM EMR, Athena, AWS Glue und HAQM MWAA weiterhin wie bisher verwenden. Wir empfehlen Ihnen jedoch, mit SageMaker zu beginnen, um einheitliche Tools, integrierte Datenverwaltung und vereinfachte SageMaker Lakehouse-Architekturen zu verwenden.
Es hat keine Auswirkungen auf aktuellen Code, Abfragen, Aufträge und andere Ressourcen, die Sie mit HAQM EMR, Athena oder AWS Glue erstellt und verwendet haben. Sie können diese Services weiterhin für neue Workloads verwenden, wenn Sie dies bevorzugen. Ressourcen, die in diesen Diensten erstellt wurden, wie HAQM EMR auf HAQM Elastic Compute Cloud (HAQM EC2) -Clustern, sind in SageMaker sichtbar, um die Entwicklung von Analyse- und KI-Anwendungen zu vereinfachen. Bestehende Entwicklungserlebnisse, die in HAQM EMR, AWS Glue und Athena integriert sind, werden weiterhin existieren, zusätzlich zu einem neuen Entwicklungserlebnis innerhalb von HAQM SageMaker.
Die neueste Version von AWS Glue, AWS Glue 5.0, ist in SageMaker verfügbar. AWS Glue 5.0 beschleunigt Datenverarbeitungs-Workloads und bietet die neueste leistungsoptimierte Apache-Spark-3.5.2-Laufzeit, sodass Sie für schnellere Einblicke entwickeln, ausführen und skalieren können. Weitere Informationen finden Sie unter AWS Glue.