O SageMaker Data Processing realiza a análise, a preparação, a integração e a orquestração dos seus dados ao usar as funcionalidades de processamento do HAQM Athena, do HAQM EMR, do AWS Glue e do HAQM Managed Workflows for Apache Airflow (HAQM MWAA). É possível usar as estruturas de processamento de dados de código aberto, como o Apache Spark, para analisar dados em grande escala com o Trino e para desenvolver analytics em tempo real de forma integrada com o Apache Flink e com o Apache Spark.
O SageMaker Data Processing auxilia na exploração de dados, na criação de trabalhos de transformação de dados, na orquestração e na implantação de pipelines de dados em grande escala. A solução aprimora a performance, proporcionando insights mais rápidos quando comparados com os sistemas tradicionais de código aberto ao usar versões econômicas e compatíveis com APIs de código aberto do Apache Spark, Apache Airflow, Apache Flink, Trino e outros. O SageMaker Data Processing disponibiliza o acesso às fontes de dados no HAQM SageMaker Lakehouse por meio de integrações ETL zero, funcionalidades de consulta federada e conectores.
Não, você não precisa migrar para o SageMaker. Você pode continuar usando o HAQM EMR, o Athena, o AWS Glue e o HAQM MWAA da mesma forma que faz hoje. Entretanto, recomendamos que você comece a usar o SageMaker para utilizar as ferramentas unificadas, a governança de dados integrada e as arquiteturas simplificadas do SageMaker Lakehouse.
Não haverá impacto no código, nas consultas, nos trabalhos e em outros recursos atuais que você criou e usou com o HAQM EMR, o Athena ou o AWS Glue. É possível continuar a usar esses serviços para novas workloads, se preferir. Os recursos criados nesses serviços, como clusters do HAQM EMR no HAQM Elastic Compute Cloud (HAQM EC2), podem ser visualizados no SageMaker para simplificar o desenvolvimento de aplicações de analytics e de IA. As experiências de desenvolvimento existentes incorporadas no HAQM EMR, no AWS Glue e no Athena continuarão disponíveis, além de fornecerem uma nova experiência de desenvolvimento no SageMaker.
A versão mais recente do AWS Glue, o AWS Glue 5.0, está disponível no SageMaker. O AWS Glue 5.0 acelera as workloads de processamento de dados e oferece o runtime mais recente do Apache Spark 3.5.2 com performance otimizada, permitindo que você desenvolva, execute e escale para obter insights mais rápidos. Para saber mais informações, acesse AWS Glue.