Обработка данных HAQM SageMaker анализирует, подготавливает, интегрирует и упорядочивает ваши данные с помощью функций обработки HAQM Athena, HAQM EMR, AWS Glue и Управляемых рабочих процессов HAQM для Apache Airflow (HAQM MWAA). Можно использовать фреймворки с открытым исходным кодом для обработки данных, в том числе Apache Spark, анализировать данные при масштабировании с помощью Trino, а также легко формировать аналитику в реальном времени с помощью Apache Flink и Apache Spark.
Обработка данных HAQM SageMaker объединяет HAQM EMR, HAQM Athena, AWS Glue и Управляемые рабочие процессы HAQM для Apache Airflow (HAQM MWAA).
Обработка данных HAQM SageMaker помогает анализировать данные, создавать задания по преобразованию данных, выполнять оркестрацию и развертывать конвейеры данных при масштабировании. Этот сервис повышает производительность и позволяет получать данные быстрее, чем традиционные системы. В сервисе используются версии Apache Spark, Apache Airflow, Apache Flink, Trino и т. д., которые совместимы с API, имеют открытый исходный код и являются экономичными. Обработка данных предоставляет доступ к вашим источникам данных в HAQM SageMaker Lakehouse с помощью интеграций с нулевым использованием ETL, возможностей федеративных запросов и коннекторов.
Нет, вам не нужно выполнять миграцию на HAQM SageMaker. Вы можете продолжать использовать HAQM EMR, HAQM Athena, AWS Glue и Управляемые рабочие процессы HAQM для Apache Airflow (HAQM MWAA), как и раньше. Однако мы рекомендуем начинать использовать HAQM SageMaker, чтобы получить преимущества от унифицированного инструментария, встроенных средств управления данными и упрощенной архитектуры HAQM SageMaker Lakehouse.
Никаких последствий для имеющихся кодов, запросов, заданий и других ресурсов, которые вы создали и использовали в HAQM EMR, HAQM Athena или AWS Glue, не будет. При желании вы можете продолжать использовать эти сервисы для новых рабочих нагрузок. Ресурсы, созданные в этих сервисах (например, HAQM EMR на кластерах EC2), отображаются в HAQM SageMaker, что упрощает разработку приложений для аналитики и работы с искусственным интеллектом. Существующие интерфейсы разработки, встроенные в HAQM EMR, AWS Glue и HAQM Athena, сохранятся в дополнение к новому интерфейсу разработки в HAQM SageMaker.
В HAQM SageMaker доступна новейшая версия AWS Glue (Glue 5.0). Glue 5.0 позволяет ускорить выполнение рабочих нагрузок по обработке данных и предоставляет обновленное время выполнения Apache Spark 3.5.2, оптимизированное для повышения производительности, чтобы вы могли разрабатывать, запускать и масштабировать свои решения для ускорения процесса анализа. Чтобы узнать больше, посетите страницу AWS Glue.
Для каждого сервиса AWS, который вы используете через HAQM SageMaker, установлены отдельные цены. Чтобы получить более подробную информацию, посетите страницу с ценами AWS для HAQM Athena, HAQM EMR, AWS Glue и Управляемых рабочих процессов HAQM для Apache Airflow (HAQM MWAA).