Apache™ Hadoop® ist ein Open-Source-Softwareprojekt zur effizienten Verarbeitung großer Datensätze. Anstatt mit einem einzigen Computer die Daten zu verarbeiten und zu speichern, können Sie mit Hadoop Standardhardware zu Clustern vereinen, um parallel umfangreiche Datensätze zu analysieren.
Das Hadoop-Ökosystem verfügt über eine Menge an Anwendungen und Ausführungs-Engines, die die Tools bereitstellen, mit denen Sie Ihre Analyse-Jobs effektiv durchführen können. Mit HAQM EMR können Sie ganz einfach vollständig konfigurierte, elastische Cluster auf HAQM EC2 Instances erstellen, auf denen Sie Hadoop oder andere Anwendungen im Hadoop-Ökosystem ausführen können.

Unter Hadoop versteht man üblicherweise das tatsächliche Apache Hadoop-Projekt, das MapReduce (Framework zur Ausführung), YARN (Ressourcen-Manager) und HDFS (Verteilungsspeicher) enthält. In HAQM EMR ist außerdem EMRFS beinhaltet, eine Schnittstelle, mit der Hadoop HAQM S3 als Speicherebene verwenden kann.
Das Hadoop-Ökosystem umfasst allerdings auch noch andere Anwendungen und Frameworks, darunter Tools zur Aktivierung von Niedriglatenzabfragen, GUIs für interaktive Abfragen, eine Vielzahl an Schnittstellen wie SQL und verteilte NoSQL-Datenbanken. Im Hadoop-Ökosystem finden sich viele Open-Source-Tools, mit denen sich zusätzliche Funktionen für die Hadoop-Kernkomponenten entwickeln lassen. Mit HAQM EMR können Sie Tools wie Hive, Pig, Hue, Ganglia, Oozie und HBase ganz einfach auf Ihrem Cluster installieren und konfigurieren. Zusätzlich zu Hadoop auf HAQM EMR können Sie aber auch andere Frameworks ausführen, wie Apache Spark für die In-Memory-Verarbeitung oder Presto für interaktives SQL.
HAQM EMR installiert und konfiguriert programmatisch Anwendungen im Hadoop-Projekt auf den Knoten Ihres Clusters, darunter Hadoop MapReduce, YARN und HDFS. Sie können auch weitere Anwendungen wie Hive und Pig installieren lassen.
Hadoop MapReduce, eine Ausführungs-Engine in Hadoop, verarbeitet Arbeitslasten über das MapReduce-Framework. Dieses unterteilt Jobs in kleinere Arbeitspakete, die auf die Knoten in Ihrem HAQM EMR-Cluster aufgeteilt werden können. Die Hadoop MapReduce-Engine wurde speziell dafür entwickelt, nicht gegen Rechnerausfälle auf einem Cluster anfällig zu sein. Wenn ein Server ausfällt, auf dem gerade eine Aufgabe ausgeführt wird, leitet Hadoop diese Aufgabe auf einen anderen Rechner um, bis sie abgeschlossen ist.
Sie können MapReduce-Programme in Java, Hive und Pig programmieren (falls Sie diese Anwendungen auf Ihrem HAQM EMR-Cluster installiert haben) oder mit Hadoop Streaming eigene Skripte parallel ausführen, um Abstraktionen auf höherer Ebene über MapReduce durchzuführen. Oder Sie verwenden dazu andere Tools, die mit Hadoop interagieren.
Ab Hadoop 2 wird die Ressourcenverwaltung von YARN (Yet Another Resource Negotiator) übernommen. YARN behält die Übersicht über alle Ressourcen in Ihrem Cluster und stellt sicher, dass diese Ressourcen auf dynamische Weise verteilt werden, um die Aufgaben in Ihrem Verarbeitungs-Job zu erledigen. YARN kann außerdem Hadoop MapReduce-Arbeitslasten sowie andere verteilte Frameworks wie Apache Spark, Apache Tez und weitere verwalten.
Nutzen Sie EMR File System (EMRFS) auf Ihrem HAQM EMR-Cluster, um HAQM S3 als Datenebene für Hadoop zu verwenden. HAQM S3 ist hochskalierbar, kostengünstig und auf Langlebigkeit ausgelegt. Es eignet sich daher bestens als Datenspeicher für die Big-Data-Verarbeitung. Wenn Sie Ihre Daten auf HAQM S3 speichern, können Sie die Computerebene von der Speicherebene trennen und CPU sowie Speicher Ihres HAQM EMR-Clusters entsprechend der Arbeitslasten anpassen und somit auf zusätzliche Knoten im Cluster zur Maximierung der Speicherfähigkeiten auf dem Cluster verzichten. Außerdem können Sie den HAQM EMR-Cluster bei Leerlauf ausschalten, um Kosten zu sparen, während die Daten sicher auf HAQM S3 liegen.
EMRFS ist darauf optimiert, dass Hadoop Daten direkt und performant zu HAQM S3 lesen und schreiben sowie Objekte, die mit der server- und clientseitigen Verschlüsselung von HAQM S3 geschützt wurden, verarbeiten kann. Mit EMRFS können Sie HAQM S3 als Data Lake nutzen, während Hadoop in HAQM EMR als elastische Abfrageebene fungieren kann.
Hadoop enthält außerdem ein verteiltes Speichersystem – Hadoop Distributed File System (HDFS) – in dem Daten auf mehreren Festplatten auf dem Cluster in großen Blöcken gespeichert werden. HDFS verfügt über einen konfigurierbaren Replikationsfaktor (Standardwert 3-fach) für erweiterte Verfügbarkeit und Langlebigkeit. HDFS überwacht Replikationen und teilt Daten gleichmäßig auf alle Knoten auf, auch wenn Knoten ausfallen oder neue hinzugefügt werden.
HDFS wird automatisch mit Hadoop auf Ihrem HAQM EMR-Cluster installiert. Sie können HDFS gemeinsam mit HAQM S3 verwenden, um Ihre Eingabe- und Ausgabedaten zu speichern. HAQM EMR konfiguriert Hadoop außerdem so, dass HDFS und lokale Festplatten zum Speichern von Zwischendaten verwendet werden, die während der Hadoop MapReduce-Jobs erstellt wurden, selbst wenn sich Ihre Eingabedaten auf HAQM S3 befinden.


Sie können einen neuen Hadoop-Cluster schnell und dynamisch initialisieren oder Server zu Ihrem vorhandenen HAQM EMR-Cluster hinzufügen. Dadurch wird die erforderliche Zeit für das Verfügbarmachen von Ressourcen für Benutzer und Data Scientists spürbar reduziert. Verwenden Sie Hadoop auf der AWS-Plattform, um die betriebliche Agilität drastisch zu erhöhen und sowohl die Kosten als auch den Zeitaufwand zu senken, die notwendig sind, Ressourcen für Experimente und Entwicklung zuzuweisen.

Hadoop-Konfiguration, Netzwerke, Serverinstallationen, laufende administrative Wartung – all das kann kompliziert und fordernd sein. Als verwalteter Service kümmert sich HAQM EMR um Ihre Hadoop-Infrastrukturanforderungen, damit Sie sich um Ihr Kerngeschäft kümmern können.

Sie können Ihre Hadoop-Umgebung ganz einfach in andere Services integrieren, wie HAQM S3, HAQM Kinesis, HAQM Redshift und HAQM DynamoDB sowie HAQM EMR, um die Datenverschiebung, Workflows und Analysen auf den vielen verschiedenen Services auf der AWS-Plattform zu ermöglichen.

Viele Hadoop-Jobs müssen nicht permanent verarbeitet werden. Ein ETL-Job zum Beispiel kann stündlich, täglich oder monatlich ausgeführt werden, während Modell-Jobs für Finanzunternehmen oder genetische Sequenzierung vielleicht ein paar Mal pro Jahr vorkommen. Mit Hadoop auf HAQM EMR können Sie Cluster für diese Arbeitslasten jederzeit hochfahren, die Ergebnisse speichern und die Hadoop-Cluster dann wieder herunterfahren, wenn Sie sie nicht mehr benötigen. So vermeiden Sie unnötige Infrastrukturkosten.

Wenn Sie Hadoop auf HAQM EMR verwenden, können Sie Ihre Cluster in allen möglichen Verfügbarkeitszonen in jeder AWS-Region nach Belieben starten. Ein potentielles Problem oder eine Bedrohung in einer Region oder Zone können Sie einfach umgehen, indem Sie binnen weniger Minuten einen Cluster in einer anderen Zone starten.

Die Kapazitätsplanung kann oft zu teurer Ressourcenverschwendung oder Ressourcenbegrenzung führen, wenn Sie keine Hadoop-Umgebung nutzen. Mit HAQM EMR können Sie auf so viel oder wenig Kapazität wie benötigt zugreifen und Ihren Bedarf innerhalb weniger Minuten wie gewünscht anpassen.
Hadoop wird aufgrund seiner exzellenten Skalierbarkeit häufig für die Verarbeitung von Big-Data-Arbeitslasten verwendet. Fügen Sie einfach mehr Server mit den entsprechenden CPU- und Speicherwerten hinzu, um die Verarbeitungsleistung Ihres Hadoop-Clusters zu erhöhen und Ihre betrieblichen Anforderungen zu erfüllen.
Hadoop bietet Langlebigkeit und Verfügbarkeit in hohem Maße und kann dabei trotzdem analytische Arbeitslasten parallel verarbeiten. Diese Kombination aus Verfügbarkeit, Langlebigkeit und Skalierbarkeit macht Hadoop zur perfekten Lösung für Big-Data-Arbeitslasten. Sie können mit HAQM EMR ein Cluster von HAQM EC2 Instances mit Hadoop binnen weniger Minuten erstellen und konfigurieren und sich Ihre Daten so zu Nutze machen.
Hadoop kann zur Analyse von Clickstream-Daten verwendet werden, um die Benutzer zu segmentieren und ihre Präferenzen zu verstehen. Inserenten können auch Clickstreams und die Aufrufprotokolle analysieren, um die Effizienz der Werbung zu steigern.
Erfahren Sie, wie Razorfish mit Hilfe von Hadoop auf HAQM EMR Clickstream-Analysen durchführt »
Mit Hadoop lassen sich durch Web- und mobile Anwendungen generierte Protokolle verarbeiten. Hadoop hilft den Kunden, Petabytes an unstrukturierten und halbstrukturierten Daten in nützliche Einblicke in Anwendungen und Benutzerverhalten zu verwandeln.
Erfahren Sie, wie Yelp mithilfe von Hadoop auf HAQM EMR wichtige Website-Funktionen verbessert »
Mit den Hadoop-Ökosystemanwendungen wie Hive können Benutzer Hadoop MapReduce über eine SQL-Schnittstelle nutzen, was Data Warehousing in gigantischem Umfang, verteilt und fehlertolerant ermöglicht. Speichern Sie mit Hadoop Ihre Daten und ermöglichen Sie Ihren Benutzern, Datenabfragen jeder Größe zu senden.
Mit Hadoop können riesige Mengen genomischer Daten und anderer wissenschaftlicher Datensätze rasch und effizient verarbeitet werden. AWS hat die Daten des 1000 Genomes-Projekts der Öffentlichkeit kostenlos zur Verfügung gestellt.
Dank der enormen Skalierbarkeit und den geringeren Kosten eignet sich Hadoop ideal für gewöhnliche ETL-Arbeitslasten, wie das Sammeln, Sortieren, Verbinden und Aggregieren großer Datensätze zur einfacheren Nutzung durch Downstream-Systeme.
Apache und Hadoop sind Markenzeichen der Apache Software Foundation.