Apache Spark in HAQM EMR
Perché Apache Spark su EMR?
HAQM EMR è l'ambiente migliore per eseguire Apache Spark. È possibile creare in modo rapido e veloce cluster Spark tramite la Console di gestione AWS, l'interfaccia a riga di comando o l'API di HAQM EMR. È anche possibile sfruttare altre funzionalità di HAQM EMR, ad esempio le rapide connessioni di HAQM S3 tramite il file system di HAQM EMR (EMRFS), l'integrazione con il marketplace di istanze spot di HAQM EC2 e il Catalogo dati AWS Glue, nonché la funzione di scalabilità gestita da EMR per aggiungere o rimuovere istanze dal cluster. AWS Lake Formation offre un controllo granulare degli accessi, mentre l'integrazione con AWS Step Functions aiuta a orchestrare le pipeline di dati. EMR Studio (anteprima) è un ambiente di sviluppo integrato (IDE) che semplifica lo sviluppo, la visualizzazione e il debug delle applicazioni di data engineering e data science scritte in R, Python, Scala e PySpark per i data scientist e gli ingegneri dei dati. EMR Studio fornisce notebook Jupyter completamente gestiti e strumenti come Spark UI e YARN Timeline Service per semplificare il debug. Notebook EMR semplifica la sperimentazione e la creazione di applicazioni con Spark. Inoltre, è possibile utilizzare Apache Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione dei dati tramite Spark.
Ottieni ulteriori informazioni su Apache Spark in questa pagina
Caratteristiche e vantaggi
Casi d'uso
Storie di successo
-
Yelp
Il team di Yelp che si occupa del pubblico delle inserzioni crea modelli predittivi per determinare le probabilità che un utente interagisca con un'inserzione. Utilizzando Apache Spark in HAQM EMR per elaborare grandi quantità di dati e alimentare modelli di apprendimento automatico, Yelp ha aumentato i guadagni e la percentuale di clic delle proprie inserzioni.
-
The Washington Post
Il Washington post usa Apache Spark in HAQM EMR per creare modelli sui quali si basa il motore di raccomandazione del sito Web e migliorare il coinvolgimento e la soddisfazione dei lettori. Il quotidiano sfrutta la connettività di HAQM EMR con HAQM S3 per aggiornare i modelli quasi in tempo reale.
-
Krux
Krux impiega diversi carichi di lavoro di machine learning e generiche attività di elaborazione tramite Apache Spark per la propria piattaforma di gestione dei dati. Per risparmiare sui costi, Krux usa cluster HAQM EMR temporanei con istanze Spot di HAQM EC2, nonché HAQM S3 con EMRFS come layer dei dati per Apache Spark.
-
GumGum
GumGum, una piattaforma pubblicitaria di annunci illustrati e pop-up, usa Spark in HAQM EMR per eseguire previsioni di inventario, elaborare log di clickstream e completare analisi ad hoc di dati non strutturati in HAQM S3. Il miglioramento alle prestazioni garantito da Spark ha consentito a GumGum di risparmiare tempo e denaro nei propri flussi di lavoro.
-
Hearst Corporation
Hearst Corporation è una grande società che opera nel settore multimediale e dell'informazione con oltre 200 siti Web di proprietà. Grazie ad Apache Spark Streaming in HAQM EMR, la redazione di Hearst è in grado di monitorare in tempo reale la popolarità dei singoli articoli.
-
CrowdStrike
CrowdStrike fornisce protezione dagli attacchi informatici per endpoint. Utilizza HAQM EMR con Spark per elaborare centinaia di terabyte di dati di eventi e riassumerli in descrizioni comportamentali di alto livello sugli host. A partire dai dati, CrowdStrike è in grado di analizzare gli eventi che si verificano e identificare la presenza di attività pericolose.