Tính năng Xử lý dữ liệu HAQM SageMaker phân tích, chuẩn bị, tích hợp và sắp xếp dữ liệu của bạn nhờ các khả năng xử lý từ HAQM Athena, HAQM EMR, AWS Glue và HAQM Managed Workflows for Apache Airflow (MWAA). Bạn có thể tận dụng các khung xử lý dữ liệu nguồn mở như phân tích dữ liệu Apache Spark trên quy mô lớn với Trino và xây dựng phân tích liền mạch theo thời gian thực với Apache Flink và Apache Spark.
Xử lý dữ liệu HAQM SageMaker kết hợp HAQM EMR, HAQM Athena, AWS Glue và HAQM Managed Workflow cho Apache Airflow.
Tính năng Xử lý dữ liệu SageMaker giúp bạn khám phá dữ liệu, xây dựng các công việc chuyển đổi dữ liệu, sắp xếp và triển khai các đường ống dữ liệu trên quy mô lớn. Tính năng này giúp cải thiện hiệu suất, thúc đẩy tìm hiểu thông tin chi tiết nhanh hơn các hệ thống nguồn mở truyền thống với các phiên bản tương thích API nguồn mở và tiết kiệm chi phí của Apache Spark, Apache Airflow, Apache Flink, Trino, v.v. Xử lý dữ liệu cung cấp quyền truy cập vào các nguồn dữ liệu của bạn trong Hồ dữ liệu HAQM SageMaker thông qua tích hợp không ETL, khả năng truy vấn liên kết và kết nối.
Không, bạn không cần phải di chuyển sang HAQM SageMaker. Bạn có thể tiếp tục sử dụng HAQM EMR, HAQM Athena, AWS Glue và HAQM Managed Workflows cho Apache Airflow như hiện tại. Tuy nhiên, chúng tôi khuyên bạn nên bắt đầu với HAQM SageMaker để tận dụng các công cụ thống nhất, quản trị dữ liệu tích hợp và các kiến trúc Hồ dữ liệu HAQM SageMaker được đơn giản hóa.
Mã, truy vấn, công việc hiện tại và các tài nguyên khác mà bạn đã tạo và sử dụng với HAQM EMR, HAQM Athena hoặc AWS Glue sẽ không bị ảnh hưởng. Bạn có thể tiếp tục tận dụng các dịch vụ này cho khối lượng công việc mới, nếu muốn. Các tài nguyên được tạo trong các dịch vụ này, chẳng hạn như HAQM EMR trên các cụm EC2, có thể hiển thị trong HAQM SageMaker để đơn giản hóa việc phát triển các ứng dụng phân tích và AI. Các trải nghiệm phát triển hiện có được tích hợp trong HAQM EMR, AWS Glue và HAQM Athena sẽ tiếp tục tồn tại cũng với mộy trải nghiệm phát triển mới trong HAQM SageMaker.
Phiên bản mới nhất của AWS Glue, Glue 5.0, có sẵn trong HAQM SageMaker. Glue 5.0 tăng tốc khối lượng công việc xử lý dữ liệu và cung cấp thời gian chạy Apache Spark 3.5.2 được tối ưu hóa hiệu suất mới nhất để bạn có thể phát triển, chạy và mở rộng để có thông tin chuyên sâu nhanh hơn. Để tìm hiểu thêm, hãy truy cập AWS Glue.
Mỗi Dịch vụ AWS mà bạn sử dụng thông qua HAQM SageMaker phải chịu mức giá riêng. Để biết thêm chi tiết, vui lòng tham khảo trang giá AWS cho HAQM Athena, HAQM EMR, AWS Glue và HAQM Managed Workflow Apache Airflow.