Обработка данных HAQM SageMaker

Анализируйте, подготавливайте и интегрируйте данные для использования в аналитике и с искусственным интеллектом при любом масштабировании

Почему обработка данных с помощью SageMaker?

Проводите подготовку, интеграцию и оркестрацию данных с помощью возможностей обработки данных HAQM Athena, HAQM EMR, AWS Glue и Управляемых рабочих процессов HAQM для Apache Airflow (HAQM MWAA). Обрабатывайте и интегрируйте данные, где бы они ни находились, с помощью быстрого и простого подключения к сотням источников данных.

Используйте платформы обработки данных с открытым исходным кодом, такие как Apache Spark, Trino и Apache Flink. Анализируйте данные в требуемом масштабе с помощью Trino без необходимости в управлении инфраструктурой и легко создавайте аналитику в режиме реального времени с помощью Apache Flink и Apache Spark.

Благодаря встроенной интеграции с HAQM SageMaker Lakehouse убедитесь в точности и безопасности данных, автоматизировав их качество, идентификацию конфиденциальных данных, отслеживание их происхождения и обеспечение точного контроля доступа.

Преимущества

Обработки данных HAQM SageMaker предоставляют полный доступ к платформам обработки данных и потоков, механизмам распределенных SQL-запросов с открытым исходным кодом и самым популярным инструментам, таким как блокноты, редакторы запросов и визуальное извлечение, преобразование и загрузка (ETL).

Вы можете использовать самые популярные фреймворки, такие как Apache Spark, для подготовки и интеграции данных в любом масштабе. Реагируйте на потребности компании в режиме реального времени с помощью потоковой обработки благодаря Apache Flink и Apache Spark и анализируйте данные с помощью ведущих SQL-платформ с открытым исходным кодом, таких как Trino. Упростите оркестрацию рабочих процессов без необходимости управлять инфраструктурой с помощью встроенной интеграции с HAQM MWAA.

Обработка данных SageMaker изначально интегрирована с SageMaker Lakehouse, что позволяет обрабатывать и интегрировать данные, используя одну копию для всех сценариев использования, включая аналитику, специальные запросы, машинное обучение и генеративный искусственный интеллект.

SageMaker Lakehouse объединяет данные в озерах данных HAQM Simple Storage Service (HAQM S3) и хранилищах данных HAQM Redshift, обеспечивая унифицированный доступ к ним. Вы можете обнаруживать и анализировать данные, объединенные в Lakehouse, с помощью сотен коннекторов, интеграций с нулевым использованием ETL и объединенных источников данных, что дает вам полное представление о своем бизнесе. Озеро данных SageMaker работает «из коробки» с существующей архитектурой данных, не ограничиваясь определенным форматом хранения или выбором движка запросов.

Повысьте эффективность за счет быстрой обработки запросов по сравнению с таблицами Apache Iceberg. Получайте аналитику вдвое быстрее по сравнению с традиционными решениями с открытым исходным кодом благодаря высокопроизводительным версиям Apache Spark, Apache Airflow, Apache Flink, Trino и другим, полностью совместимым с открытым исходным кодом.

Обработка данных SageMaker упрощает преобразование и анализ данных, избавляя от необходимости управлять вычислительными ресурсами или приложениями с открытым исходным кодом. Это помогает сократить затраты и сэкономить время. Вы можете автоматически выделять ресурсы через HAQM EMR на базе HAQM Elastic Compute Cloud (HAQM EC2) или HAQM EMR на Эластичном сервисе HAQM Kubernetes (HAQM EKS). Управление масштабированием обеспечивает адаптацию к изменяющимся нагрузкам, оптимизируя производительность и время работы.

Обеспечьте доверие и прозрачность благодаря автоматической отчетности о качестве данных, обнаружению конфиденциальных данных и отслеживанию происхождения данных и моделей ИИ благодаря интеграции с каталогом HAQM SageMaker. Повысьте уверенность в качестве данных с помощью автоматических измерений, мониторинга и рекомендаций по правилам качества данных.

Безопасно обрабатывайте и анализируйте данные, применяя детализированные средства контроля доступа, заданные для наборов данных в SageMaker Lakehouse. Это позволит вам установить разрешения один раз и предоставлять доступ к данным только авторизованным пользователям в своей организации.

Сервисы AWS

Упрощенная интеграция данных

AWS Glue обеспечивает бессерверную интеграцию данных из нескольких источников, упрощая их изучение и подготовку. Подключайтесь к различным источникам данных, управляйте ими в централизованном каталоге данных, визуально создавайте, запускайте и отслеживайте конвейеры ETL для загрузки данных в ваше озеро. AWS Glue автоматически масштабируется по требованию, поэтому вы можете сосредоточиться на извлечении ценной информации из данных без управления инфраструктурой.

Запускайте и масштабируйте Apache Spark, Apache Hive, Trino и другие рабочие нагрузки

HAQM EMR упрощает и экономично запускает рабочие нагрузки по обработке данных, такие как Apache Spark, Apache Airflow, Apache Flink, Trino и другие. Создавайте и запускайте конвейеры обработки данных и автоматически масштабируйте их быстрее, чем локальные решения.

Отслеживайте затраты

HAQM Athena предоставляет простой и гибкий способ анализа данных в любом масштабе. Athena – это интерактивный сервис запросов, который упрощает анализ данных в HAQM S3 с помощью стандартного SQL. Athena работает без серверов, поэтому нет необходимости настраивать инфраструктуру или управлять ею, и вы можете выбрать оплату в зависимости от выполняемых запросов или вычислительных ресурсов, необходимых для ваших запросов. Сервис можно использовать для обработки журналов, выполнения анализа данных и интерактивных запросов к ним. Athena масштабируется автоматически и выполняет запросы параллельно, поэтому результаты возвращаются очень быстро даже при выполнении сложных запросов на больших наборах данных.

Ориентированная на безопасность и высокодоступная управляемая оркестрация рабочих процессов для Apache Airflow

HAQM MWAA – это управляемый сервис для Apache Airflow, который позволяет использовать текущую знакомую вам платформу Apache Airflow для организации рабочих процессов. Вы получаете улучшенную масштабируемость, доступность и безопасность без эксплуатационной нагрузки, связанной с управлением базовой инфраструктурой. Управляемые рабочие процессы HAQM для Apache Airflow (HAQM MWAA) организуют рабочие процессы с помощью ориентированных ациклических графов (DAG), написанных на языке Python. Вы предоставляете HAQM MWAA корзину S3, в которой хранятся ваши DAG, плагины и требования Python. Развертывание Apache Airflow в больших масштабах без необходимости управления базовой инфраструктурой.

Примеры использования

Быстро находите данные в AWS, локальной среде или других облаках, и мгновенно делайте их доступными для опроса и преобразования.

Обрабатывайте данные с помощью таких платформ, как Apache Spark, Apache Flink и Trino, а также различных рабочих нагрузок, включая пакетную обработку, микропакетную обработку и потоковую передачу.

Обработка данных в большом масштабе и анализ «что, если» с помощью статистических алгоритмов и прогнозных моделей для обнаружения скрытых закономерностей, взаимосвязей, рыночных тенденций и предпочтений клиентов.