Apache Spark di HAQM EMR
Mengapa harus Apache Spark on EMR?
HAQM EMR adalah tempat terbaik untuk menjalankan Apache Spark. Anda dapat dengan cepat dan mudah membuat kluster Spark terkelola dari AWS Management Console, AWS CLI, atau API HAQM EMR. Selain itu, Anda dapat memanfaatkan fitur HAQM EMR tambahan, yang mencakup konektivitas HAQM S3 cepat menggunakan HAQM EMR File System (EMRFS), integrasi dengan pasar Spot HAQM EC2 dan Katalog Data AWS Glue, dan EMR Managed Scaling untuk menambah atau menghapus instans dari klaster Anda. AWS Lake Formation menghadirkan kontrol akses terperinci, sementara integrasi dengan AWS Step Functions membantu orkestrasi pipeline data Anda. EMR Studio (pratinjau) adalah lingkungan pengembangan terintegrasi (IDE) yang memudahkan ilmuwan data dan rekayasawan data mengembangkan, memvisualisasikan, serta melakukan debug aplikasi ilmu data dan rekayasa data yang ditulis di R, Python, Scala, dan PySpark. EMR Studio menyediakan Jupyter Notebook yang dikelola sepenuhnya, dan alat seperti Spark UI dan YARN Timeline Service untuk memudahkan debugging. EMR Notebooks memudahkan Anda bereksperimen dan membangun aplikasi dengan Spark. Jika diinginkan, Anda dapat menggunakan Apache Zeppelin untuk membuat notebook interaktif dan kolaboratif untuk eksplorasi data menggunakan Spark.
Fitur dan manfaat
Kasus penggunaan
Kesuksesan pelanggan
-
Yelp
Tim penargetan iklan Yelp membuat model prediksi untuk menentukan kemungkinan interaksi pengguna dengan suatu iklan. Dengan menggunakan Apache Spark di HAQM EMR untuk memproses sejumlah besar data untuk melatih model machine learning, Yelp telah meningkatkan pendapatan dan rasio klik-tayang iklan.
-
The Washington Post
The Washington Post menggunakan Apache Spark di HAQM EMR untuk membangun model yang mendukung mesin rekomendasi situs webnya untuk meningkatkan keterlibatan dan kepuasan pembaca. Mereka mendongkrak konektivitas kinerja HAQM EMR dengan HAQM S3 untuk memutakhirkan model hampir secara real-time.
-
Krux
Sebagai bagian dari Data Management Platform untuk wawasan pelanggan, Krux menjalankan banyak machine learning dan beban kerja pemrosesan umum menggunakan Apache Spark. Krux memanfaatkan klaster HAQM EMR yang baru berjalan sebentar dengan Kapasitas Spot HAQM EC2 untuk menghemat biaya dan menggunakan HAQM S3 dengan EMRFS sebagai lapisan data untuk Apache Spark.
-
GumGum
GumGum, suatu platform pengiklanan pada gambar dan pada layar, menggunakan Spark di HAQM EMR untuk memprediksi inventaris, memproses log aliran klik, dan analisis ad hoc terhadap data tak terstruktur di HAQM S3. Peningkatan kinerja Spark menghemat waktu dan biaya GumGum untuk alur kerja ini.
-
Hearst Corporation
Hearst Corporation, suatu perusahaan media dan informasi beragam yang besar, memiliki pelanggan yang melihat konten pada lebih dari 200 properti web. Dengan menggunakan Apache Spark Streaming di HAQM EMR, karyawan editorial Hearst dapat mempertahankan laju real-time yang berarti artikel mereka bekerja dengan baik dan tema mereka populer.
-
CrowdStrike
CrowdStrike menyediakan proteksi titik akhir untuk menghentikan pelanggaran. Mereka menggunakan HAQM EMR dengan Spark untuk memproses ratusan terabyte data peristiwa dan meningkatkannya menjadi deskripsi perilaku tingkat yang lebih tinggi pada host. Dari data tersebut, CrowdStrike dapat menarik data peristiwa sekaligus dan mengidentifikasi adanya aktivitas berbahaya.