Apache Spark บน HAQM EMR
เหตุใดต้องใช้ Apache Spark บน EMR
HAQM EMR คือที่ที่ดีที่สุดในการเรียกใช้ Apache Spark คุณสามารถสร้างคลัสเตอร์ Spark ที่มีการจัดการได้อย่างง่ายดายและรวดเร็วจาก AWS Management Console, AWS CLI หรือ HAQM EMR API นอกจากนี้ คุณยังสามารถใช้ประโยชน์จากฟีเจอร์ต่าง ๆ ของ HAQM EMR ซึ่งรวมถึงการเชื่อมต่อกับ HAQM S3 ที่รวดเร็วโดยใช้ HAQM EMR File System (EMRFS), การผสานรวมกับตลาด HAQM EC2 Spot และแค็ตตาล็อกข้อมูลของ AWS Glue และ EMR Managed Scaling เพื่อเพิ่มหรือลบอินสแตนซ์ออกจากคลัสเตอร์ของคุณ AWS Lake Formation มีการควบคุมสิทธิ์การเข้าถึงอย่างละเอียด ในขณะที่การผสานรวมกับ AWS Step Functions จะช่วยในการจัดการไปป์ไลน์ข้อมูล EMR Studio (การแสดงตัวอย่าง) คือสภาพแวดล้อมการพัฒนาแบบผสานรวม (IDE) ที่ช่วยอำนวยความสะดวกให้กับนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลในการพัฒนา แสดงภาพ และแก้จุดบกพร่องของแอปพลิเคชันด้านวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูลที่เขียนด้วยภาษา R, Python, Scala และ PySpark EMR Studio ให้บริการ Jupyter Notebooks ที่มีการจัดการเต็มรูปแบบ รวมถึงเครื่องมือต่างๆ อย่าง Spark UI และ YARN Timeline Service เพื่อลดความซับซ้อนในการแก้จุดบกพร่อง EMR Notebooks ช่วยให้คุณทดลองและสร้างแอปพลิเคชันด้วย Spark ได้อย่างง่ายดาย หากต้องการ คุณสามารถใช้ Apache Zeppelin ในการสร้างโน้ตบุ๊กเชิงโต้ตอบแบบทำงานร่วมกันสำหรับการสำรวจข้อมูลโดยใช้ Spark
คุณสมบัติและประโยชน์
กรณีใช้งาน
ความสำเร็จของลูกค้า
-
Yelp
ทีมกำหนดเป้าหมายโฆษณาของ Yelp สร้างรูปแบบการคาดการณ์ในการกำหนดความเป็นไปได้ของการโต้ตอบกับโฆษณาของผู้ใช้ Yelp มีรายได้เพิ่มขึ้นและมีอัตราการคลิกผ่านในการโฆษณาเพิ่มขึ้นโดยใช้ Apache Spark บน HAQM EMR ในการประมวลผลข้อมูลจำนวนมากเพื่อฝึกรูปแบบแมชชีนเลิร์นนิ่ง
-
The Washington Post
Washington Post ใช้ Apache Spark บน HAQM EMR ในการสร้างรูปแบบที่ส่งเสริมเอนจิ้นการให้คำแนะนำบนเว็บไซต์เพื่อเพิ่มการมีส่วนร่วมและความพึงพอใจของผู้อ่าน พวกเขาใช้ประโยชน์จากการเชื่อมต่อประสิทธิภาพสูงของ HAQM EMR กับ HAQM S3 เพื่ออัปเดตรูปแบบที่แทบจะเทียบได้กับแบบเรียลไทม์
-
Krux
เนื่องจากเป็นส่วนหนึ่งของแพลตฟอร์มการจัดการข้อมูลสำหรับข้อมูลเชิงลึกของลูกค้า Krux จึงเปิดใช้งานหลายแมชชีนเลิร์นนิ่งและปริมาณงานการประมวลผลทั่วไปโดยใช้ Apache Spark Krux ใช้คลัสเตอร์ HAQM EMR แบบชั่วคราวกับ HAQM EC2 Spot Capacity เพื่อลดต้นทุน และใช้ HAQM S3 กับ EMRFS เป็นโครงสร้างข้อมูลสำหรับ Apache Spark
-
GumGum
GumGum ซึ่งเป็นแพลตฟอร์มการโฆษณาในภาพและในหน้าจอ ใช้ Spark บน HAQM EMR สำหรับการคาดการณ์สินค้าคงคลัง การประมวลผลบันทึกการคลิกสตรีม และการวิเคราะห์เฉพาะข้อมูลไร้โครงสร้างใน HAQM S3 การเพิ่มประสิทธิภาพการทำงานของ Spark ช่วย GumGum ประหยัดเวลาและเงินสำหรับเวิร์คโฟลว์เหล่านี้ได้
-
Hearst Corporation
Hearst Corporation เป็นบริษัทสื่อและข้อมูลที่มีขนาดใหญ่ซึ่งมีลูกค้าที่ดูเนื้อหาบนเว็บไซต์กว่า 200 เว็บ ฝ่ายบรรณาธิการของ Hearst สามารถดูข้อมูลได้แบบเรียลไทม์เพื่อให้รู้ว่าบทความและรูปแบบไหนที่ได้รับความนิยม โดยใช้ Apache Spark Streaming บน HAQM EMR
-
CrowdStrike
CrowdStrike มีระบบป้องกันปลายทางเพื่อไม่ให้เกิดการละเมิด พวกเขาใช้ HAQM EMR ที่มี Spark ในการประมวลผลข้อมูลเหตุการณ์กว่าร้อยเทราไบต์และรวบรวมลงในคำอธิบายลักษณะการทำงานระดับสูงกว่าบนโฮสต์ จากข้อมูลดังกล่าว CrowdStrike สามารถดึงข้อมูลเหตุการณ์เข้าไว้ด้วยกันและระบุการดำเนินการที่เป็นอันตราย