ทำไมต้องใช้การประมวลผลข้อมูล SageMaker

จัดเตรียม ผสานรวม และจัดระเบียบข้อมูลของคุณด้วยความสามารถในการประมวลผลข้อมูลจาก HAQM Athena, HAQM EMR, AWS Glue และ HAQM Managed Workflows สำหรับ Apache Airflow (HAQM MWAA) ประมวลผลและผสานรวมข้อมูลจากทุกที่ด้วยการเชื่อมต่อที่รวดเร็วและง่ายดายกับแหล่งที่มาของข้อมูลหลายร้อยแห่ง

ใช้เฟรมเวิร์กการประมวลผลข้อมูลแบบโอเพนซอร์ส เช่น Apache Spark, Trino และ Apache Flink วิเคราะห์ข้อมูลในทุกระดับด้วย Trino โดยไม่ต้องจัดการโครงสร้างพื้นฐานและสร้างการวิเคราะห์แบบเรียลไทม์ได้อย่างราบรื่นด้วย Apache Flink และ Apache Spark

เชื่อมั่นว่าข้อมูลของคุณถูกต้องแม่นยำและปลอดภัยโดยดำเนินการสร้างคุณภาพของข้อมูลอัตโนมัติ การระบุข้อมูลที่มีความละเอียดอ่อน การติดตามเส้นทางขั้นตอน และการบังคับใช้การควบคุมสิทธิ์การเข้าถึงแบบละเอียดผ่านการผสานการทำงานแบบเนทีฟกับ HAQM SageMaker Lakehouse

ประโยชน์

HAQM SageMaker Data Processing มีการเข้าถึงที่ครอบคลุมไปยังเฟรมเวิร์กการประมวลผลข้อมูลและสตรีม, เครื่องมือสืบค้น SQL แบบกระจายและโอเพนซอร์ส และเครื่องมือยอดนิยม เช่น โน้ตบุ๊ก เครื่องมือแก้ไขการสืบค้น และกระบวนการ Extract, Transform and Load (ETL) ภาพ

คุณสามารถเข้าถึงเฟรมเวิร์กที่ได้รับความนิยมมากที่สุด เช่น Apache Spark เพื่อเตรียมและผสานรวมข้อมูลของคุณในทุกขนาด ตอบสนองความต้องการทางธุรกิจแบบเรียลไทม์ด้วยการประมวลผลสตรีมกับ Apache Flink และ Apache Spark Streaming รวมถึงวิเคราะห์ข้อมูลด้วยเฟรมเวิร์ก SQL แบบโอเพนซอร์สชั้นนำ เช่น Trino ลดความซับซ้อนในการควบคุมระบบเวิร์กโฟลว์โดยไม่ต้องจัดการโครงสร้างพื้นฐานด้วยการผสานการทำงานแบบเนทีฟกับ HAQM MWAA

SageMaker Data Processing รวมเข้ากับ SageMaker Lakehouse โดยตรง ซึ่งช่วยให้คุณสามารถประมวลผลและผสานรวมข้อมูลโดยใช้สำเนาเดียวสำหรับทุกกรณีการใช้งาน รวมถึงการวิเคราะห์ การสอบถามเฉพาะกิจ แมชชีนเลิร์นนิง (ML) และ AI ช่วยสร้าง

SageMaker Lakehouse รวมข้อมูลจากคลังข้อมูลของ HAQM Simple Storage Service (HAQM S3) Data Lake และ HAQM Redshift เข้าด้วยกัน ซึ่งให้การเข้าถึงข้อมูลของคุณเป็นแบบรวมศูนย์ คุณสามารถสำรวจและวิเคราะห์ข้อมูลที่รวมอยู่ใน Lakehouse ด้วยตัวเชื่อมต่อหลายร้อยรายการ การบูรณาการ ETL แบบไร้รอยต่อ และแหล่งที่มาของข้อมูลแบบรวมกัน เพื่อให้ภาพรวมธุรกิจของคุณที่สมบูรณ์ SageMaker Lakehouse ทำงานร่วมกับสถาปัตยกรรมข้อมูลที่มีอยู่ของคุณได้ทันที โดยไม่ถูกจำกัดด้วยรูปแบบการจัดเก็บข้อมูลหรือตัวเลือกเครื่องมือสืบค้นเฉพาะ

ปรับปรุงประสิทธิภาพด้วยประสิทธิภาพการสืบค้นที่รวดเร็วเหนือตาราง Apache Iceberg รับข้อมูลเชิงลึกเร็วกว่าระบบโอเพนซอร์สแบบดั้งเดิมถึง 2 เท่า ด้วยเวอร์ชันของ Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ ที่มีความสามารถสูงและเข้ากันได้กับ API แบบโอเพนซอร์ส

SageMaker Data Processing ช่วยให้คุณมุ่งเน้นไปที่การแปลงและวิเคราะห์ข้อมูลของคุณได้โดยไม่ต้องจัดการความสามารถในการประมวลผลหรือแอปพลิเคชันโอเพนซอร์ส ช่วยให้คุณประหยัดเวลาและลดต้นทุน คุณสามารถจัดเตรียมความจุบน HAQM EMR บน HAQM Elastic Compute Cloud (HAQM EC2) หรือ HAQM EMR บน HAQM Elastic Kubernetes Service (HAQM EKS) ได้โดยอัตโนมัติ กฎการปรับขนาดจะจัดการการเปลี่ยนแปลงความต้องการในการประมวลผลของคุณเพื่อเพิ่มประสิทธิภาพการทำงานและรันไทม์

เพิ่มความน่าเชื่อถือและความโปร่งใสด้วยการรายงานคุณภาพข้อมูลอัตโนมัติ การตรวจจับข้อมูลที่ละเอียดอ่อน และการติดตามสายงานของข้อมูลและโมเดล AI ผ่านการผสานรวมกับ HAQM SageMaker Catalog เพิ่มความมั่นใจในคุณภาพข้อมูลของคุณด้วยการวัด การตรวจสอบ และคำแนะนำเกี่ยวกับกฎคุณภาพข้อมูลแบบอัตโนมัติ

ประมวลผลและวิเคราะห์ข้อมูลของคุณอย่างปลอดภัย โดยปฏิบัติตามและบังคับใช้การควบคุมการเข้าถึงแบบละเอียดที่กำหนดไว้บนชุดข้อมูลใน SageMaker Lakehouse ซึ่งช่วยให้คุณสามารถกำหนดสิทธิ์เพียงครั้งเดียวและทำให้ข้อมูลของคุณสามารถเข้าถึงได้โดยผู้ใช้ที่ได้รับอนุญาตในองค์กรของคุณ

บริการของ AWS

การผสานรวมข้อมูลที่เรียบง่าย

AWS Glue มีการผสานรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ ซึ่งช่วยลดความซับซ้อนของการสำรวจข้อมูล การจัดเตรียมข้อมูล และการผสานรวมข้อมูลจากหลายแหล่งที่มา เชื่อมต่อแหล่งที่มาของข้อมูลที่หลากหลาย จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมถึงสร้าง เรียกใช้ และตรวจสอบไปป์ไลน์ ETL ด้วยภาพเพื่อโหลดข้อมูลใน Lakehouse ของคุณ AWS Glue จะปรับขนาดตามความต้องการโดยอัตโนมัติ คุณจึงสามารถโฟกัสที่การรับข้อมูลเชิงลึกจากข้อมูลของคุณได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน

เรียกใช้และปรับขนาด Apache Spark, Apache Hive, Trino และเวิร์กโหลดอื่น ๆ

HAQM EMR ช่วยให้การเรียกใช้เวิร์กโหลดการประมวลผลข้อมูล เช่น Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ อีกมากมายเป็นไปอย่างสะดวกง่ายดายและคุ้มค่ามากยิ่งขึ้น สร้างและเรียกใช้ไปป์ไลน์การประมวลผลข้อมูล รวมถึงปรับขนาดโดยอัตโนมัติได้รวดเร็วกว่าโซลูชันในองค์กร

ติดตามค่าใช้จ่าย

HAQM Athena มอบวิธีที่ง่ายและยืดหยุ่นในการวิเคราะห์ข้อมูลในทุกระดับ Athena เป็นบริการสืบค้นเชิงโต้ตอบที่ลดความซับซ้อนในการวิเคราะห์ข้อมูลใน HAQM S3 โดยใช้ SQL มาตรฐาน Athena นั้นไม่ต้องใช้เซิร์ฟเวอร์ จึงไม่มีโครงสร้างพื้นฐานที่ต้องตั้งค่าหรือจัดการ และคุณสามารถเลือกชำระเงินตามการสืบค้นข้อมูลที่คุณเรียกใช้หรือประมวลผลทรัพยากรที่ต้องการสำหรับการสืบค้นข้อมูลได้ ใช้ Athena ในการประมวลผลบันทึก ดำเนินการวิเคราะห์ข้อมูล และรันแบบสอบถามแบบโต้ตอบ Athena จะปรับขนาดโดยอัตโนมัติพร้อมดำเนินการสืบค้นแบบคู่ขนาน ดังนั้นจึงได้ผลลัพธ์ที่รวดเร็ว แม้จะเป็นชุดข้อมูลขนาดใหญ่และการสืบค้นที่ซับซ้อนก็ตาม

การควบคุมระบบเวิร์กโฟลว์ที่มีการจัดการที่เน้นความปลอดภัยและพร้อมใช้งานสูงสำหรับ Apache Airflow

HAQM MWAA เป็นบริการที่มีการจัดการสำหรับ Apache Airflow ที่ให้คุณใช้แพลตฟอร์ม Apache Airflow ปัจจุบันของคุณที่คุ้นเคยเพื่อจัดระเบียบเวิร์กโฟลว์ของคุณ คุณจะได้รับความสามารถในการปรับขนาด ความพร้อมใช้งาน และความปลอดภัยที่ดีขึ้นโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานพื้นฐาน HAQM MWAA จะจัดการเวิร์กโฟลว์ของคุณโดยใช้ Directed Acyclic Graphs (DAG) ที่เขียนด้วย Python คุณจะต้องเตรียมบัคเก็ต S3 ที่มีข้อกำหนดด้าน DAG, ปลั๊กอิน และ Python ให้กับ HAQM MWAA การติดตั้งใช้งาน Apache Airflow ตามขนาดโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานที่สำคัญ

กรณีใช้งาน

ระบุและเข้าถึงข้อมูลที่รวมอยู่ใน AWS ในองค์กร และระบบคลาวด์อื่น ๆ ได้อย่างรวดเร็ว จากนั้นจึงทำให้สามารถใช้ได้ทันทีสำหรับการสืบค้นและการแปลง

ประมวลผลข้อมูลโดยใช้เฟรมเวิร์กเช่น Apache Spark, Apache Flink และ Trino และเวิร์กโหลดต่าง ๆ รวมถึงแบทช์ ไมโครแบทช์ และการสตรีมมิ่ง

เรียกใช้การประมวลผลข้อมูลขนาดใหญ่และการวิเคราะห์แบบ What-if โดยใช้อัลกอริทึมเชิงสถิติและโมเดลเชิงคาดการณ์เพื่อค้นหารูปแบบ ความสัมพันธ์ แนวโน้มของตลาด และความชอบของลูกค้าที่ซ่อนอยู่