SageMaker 数据处理利用 HAQM Athena、HAQM EMR、AWS Glue 和 HAQM Managed Workflows for Apache Airflow(HAQM MWAA)的处理功能,以分析、准备、集成和协调您的数据。您可以利用 Apache Spark 等开源数据处理框架,通过 Trino 大规模分析数据,并使用 Apache Flink 和 Apache Spark 无缝构建实时分析。
SageMaker 数据处理可帮助您探索数据、构建数据转换任务、编排和大规模部署数据管道。相比传统开源系统,它使用经济高效且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,以提高性能,并更快速地获得见解。SageMaker 数据处理可通过零 ETL 集成、联合查询功能和连接器,访问您在 HAQM SageMaker Lakehouse 中的数据来源。
不,不需要迁移到 SageMaker。您可以继续像现在一样使用 HAQM EMR、Athena、AWS Glue 和 HAQM MWAA。但是,我们建议您从 SageMaker 开始使用统一的工具、内置的数据治理和简化的 SageMaker Lakehouse 架构。
您已经通过 HAQM EMR、Athena 或 AWS Glue 创建并使用的当前代码、查询、作业和其他资源不会受到任何影响。如果您愿意,可以继续将这些服务用于新的工作负载。在这些服务中创建的资源 [如 HAQM Elastic Compute Cloud(HAQM EC2)集群上的 HAQM EMR] 在 SageMaker 中可见,以简化分析和人工智能应用程序的开发。除 SageMaker 中的新开发体验以外,在 HAQM EMR、AWS Glue 和 Athena 中构建的现有开发体验将继续存在。
AWS Glue 的最新版本 AWS Glue 5.0 已在 SageMaker 中上线。AWS Glue 5.0 可加速数据处理工作负载,并提供最新的性能优化型 Apache Spark 3.5.2 运行时,助您进行开发、运行和扩展,以更快地获得见解。要了解更多信息,请访问 AWS Glue。