HAQM SageMaker 資料處理常見問答集

一般問題

全部開啟

SageMaker Data Processing 使用來自 HAQM Athena、HAQM EMR、AWS Glue 和 HAQM Managed Workflows for Apache Airflow (HAQM MWAA) 的處理功能分析、準備、整合和協調您的資料。您可以利用開放原始碼資料處理架構 (例如 Apache Spark),使用 Trino 大規模分析資料,以及使用 Apache Flink 和 Apache Spark 無縫建置即時分析。

SageMaker Data Processing 結合了 HAQM EMRAthenaAWS GlueHAQM MWAA

SageMaker Data Processing 可協助您探索資料,建置資料轉換任務,協調和大規模部署資料管道。透過經濟高效且與開放原始碼 API 相容的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,該服務可提升效能,同時比傳統開放原始碼系統更快地取得洞見。SageMaker Data Processing 可透過零 ETL 整合、聯合查詢功能和連接器來存取 HAQM SageMaker Lakehouse 中的資料來源。

遷移和存取

全部開啟

不,您不需要遷移到 SageMaker。您可以像今天一樣繼續使用 HAQM EMR、Athena、AWS Glue 和 HAQM MWAA。然而,我們建議您開始使用 HAQM SageMaker,以利用統一的工具、內建的資料控管,以及簡化的 HAQM SageMaker Lakehouse 架構。

對於您在 HAQM EMR、Athena 或 AWS Glue 建立和使用的目前程式碼、查詢、任務和其他資源,不會產生任何影響。如果您願意,可以繼續利用這些服務來處理新工作負載。在這些服務中建立的資源 (例如 HAQM Elastic Compute Cloud (HAQM EC2) 叢集上的 HAQM EMR) 可在 SageMaker 中顯示,以簡化分析和 AI 應用程式的開發。除 SageMaker 中的新開發體驗之外,HAQM EMR、AWS Glue 和 Athena 中內建的現有開發體驗仍將繼續存在。

SageMaker 中提供最新版本的 AWS Glue,即 AWS Glue 5.0。AWS Glue 5.0 加速資料處理工作負載,並提供最新的效能最佳化 Apache Spark 3.5.2 執行時期,讓您可以開發、執行和擴展以更快取得洞見。若要進一步了解,請造訪 AWS Glue

定價

全部開啟

您透過 SageMaker 使用的每項 AWS 服務均須遵守其個別定價。如需詳細資訊,請參閱 AthenaHAQM EMRAWS GlueHAQM MWAA 的 AWS 定價頁面。