Apache Spark è un sistema di elaborazione open source distribuito utilizzato in genere con i carichi di lavoro per i Big Data. Apache Spark impiega un servizio di caching in memoria e di ottimizzazione che permette prestazioni elevate; inoltre supporta l'elaborazione generica in batch, l'analisi di flussi di dati, l'apprendimento automatico, i database a grafo e le query ad hoc. 

HAQM EMR offre il supporto nativo per Apache Spark in Hadoop YARN; è possibile creare in modo semplice e veloce cluster Apache Spark tramite la Console di gestione AWS, l'interfaccia a riga di comando di AWS o l'API di HAQM EMR. È anche possibile sfruttare altre funzionalità di HAQM EMR, ad esempio le rapide connessioni di HAQM S3 tramite il file system di HAQM EMR o EMRFS, l'integrazione con il marketplace di istanze Spot di HAQM EC2 e i comandi di ricalibrazione delle risorse per aggiungere o rimuovere istanze dal cluster. Inoltre, è possibile utilizzare Apache Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione dei dati tramite Apache Spark.

Apache Spark consente di creare piani di query efficienti per la trasformazione dei dati utilizzando un motore di esecuzione di grafi aciclici diretti. Apache Spark, inoltre, memorizza dati in ingresso, in uscita e parziali in memoria come set di dati resilienti o RDD (Resilient Distributed Dataset), grazie ai quali le prestazioni di elaborazione di carichi di lavoro iterativi ed interattivi risultano migliori senza pesare sulle operazioni I/O.

Apache Spark offre supporto nativo per Java, Scala e Python, perciò fornisce un'ampia libertà per quanto riguarda il linguaggio di programmazione delle applicazioni. È inoltre possibile inviare query SQL o HiveQL ad Apache Spark mediante il modulo Spark SQL. In aggiunta alle applicazioni in esecuzione, è possibile usare l'API di Apache Spark in modo interattivo con Python o Scala direttamente nella shell di Apache Spark nel cluster. Puoi anche sfruttare Zeppelin per creare notebook interattivi e collaborativi per la visualizzazione e la navigazione nei dati.

Apache Spark include diverse librerie, che aiutano a creare applicazioni per applicazioni di apprendimento automatico (MLlib), elaborazione di flussi (Spark Streaming) ed elaborazione di grafi (GraphX). Queste librerie sono integrate nell'ecosistema di Apache Spark e possono essere impiegate senza ulteriori configurazioni per diversi casi d'uso.

È possibile avviare un processo di Apache Spark con l'API Step di HAQM EMR, utilizzare Apache Spark con EMRFS per accedere direttamente ai dati in HAQM S3, ridurre i costi utilizzando istanze Spot di HAQM EC2 e avviare cluster temporanei o a lungo termine a seconda del carico di lavoro. HAQM EMR installa e gestisce Apache Spark in Hadoop YARN e consente di aggiungere al cluster altre applicazioni dell'ecosistema di Hadoop. Fai clic qui per ulteriori informazioni sulle caratteristiche di HAQM EMR.


Yelp

Il team di Yelp che si occupa del pubblico delle inserzioni crea modelli predittivi per determinare le probabilità che un utente interagisca con un'inserzione. Utilizzando Apache Spark in HAQM EMR per elaborare grandi quantità di dati e alimentare modelli di apprendimento automatico, Yelp ha aumentato i guadagni e la percentuale di clic delle proprie inserzioni.

Washington Post

Il Washington post usa Apache Spark in HAQM EMR per creare modelli sui quali si basa il motore di raccomandazione del sito Web e migliorare il coinvolgimento e la soddisfazione dei lettori. Il quotidiano sfrutta la connettività di HAQM EMR con HAQM S3 per aggiornare i modelli quasi in tempo reale.

Intent Media

Intent Media dispone di una piattaforma per la gestione di inserzioni su siti di viaggi. I tecnici IT usano Apache Spark e MLlib in HAQM EMR per acquisire terabyte di dati di e-commerce ogni giorno e utilizzare queste informazioni per i servizi di posizionamento, ottimizzando i guadagni dei clienti. Fai clic qui per ulteriori informazioni.

Krux

Krux impiega diversi carichi di lavoro di apprendimento automatico e generiche attività di elaborazione tramite Apache Spark per la propria piattaforma di gestione dei dati. Per risparmiare sui costi, Krux usa cluster HAQM EMR temporanei con istanze Spot di HAQM EC2, nonché HAQM S3 con EMRFS come layer dati per Apache Spark.

Scopri di più >>

GumGum

GumGum, una piattaforma pubblicitaria di annunci illustrati e pop-up, usa Spark in HAQM EMR per eseguire previsioni di inventario, elaborare log di clickstream e completare analisi ad hoc di dati non strutturati in HAQM S3. Il miglioramento alle prestazioni garantito da Spark ha consentito a GumGum di risparmiare tempo e denaro nei propri flussi di lavoro.

Scopri di più >>

Hearst Corporation

Hearst Corporation è una grande società che opera nel settore multimediale e dell'informazione con oltre 200 siti Web di proprietà. Grazie ad Apache Spark Streaming in HAQM EMR, la redazione di Hearst è in grado di monitorare in tempo reale la popolarità dei singoli articoli.

CrowdStrike

CrowdStrike fornisce protezione dagli attacchi informatici per endpoint. Utilizza HAQM EMR con Spark per elaborare centinaia di terabyte di dati di eventi e riassumerli in descrizioni comportamentali di alto livello sugli host. A partire dai dati, CrowdStrike è in grado di analizzare gli eventi che si verificano e identificare la presenza di attività pericolose.

Scopri di più >>


Acquisisci ed elabora dati in tempo reale da HAQM Kinesis, Apache Kafka o altri flussi di dati con Spark Streaming in HAQM EMR. Esegui analisi di flussi con tolleranza ai guasti e salvataggio dei risultati in HAQM S3 o HDFS su cluster.

 

Apache Spark in HAQM EMR include MLlib, che offre una serie di algoritmi scalabili di apprendimento automatico; in alternativa, potrai impiegare librerie personalizzate. Salvando i set di dati in memoria durante i processi, Spark ottiene prestazioni di alto livello per le query iterative, comuni nei carichi di lavoro di apprendimento automatico.

Usa Spark SQL per query interattive a bassa latenza con SQL o HiveQL. Apache Spark in HAQM EMR sfrutta EMRFS per offrire accesso ad hoc ai set di dati in HAQM S3. Potrai inoltre utilizzare i notebook Zeppelin o gli strumenti di business intelligence tramite connessioni ODBC e JDBC.