Apache HBase ist ein hoch skalierbarer, verteilter Big Data-Speicher im Apache Hadoop-Ökosystem. Die nicht relationale, versionierte Open Source-Datenbank wird auf dem Hadoop Distributed File System (HDFS) ausgeführt. Sie wurde für den stark konsistenten Direktzugriff in Echtzeit auf Tabellen mit Milliarden von Zeilen und Millionen von Spalten erstellt. Apache Phoenix ist in Apache HBase integriert, um SQL-Zugriff mit geringer Latenz über Apache HBase-Tabellen sowie sekundäre Indizierung für eine bessere Leistung bereitzustellen. Durch die enge Integration in Apache Hadoop, Apache Hive und Apache Pig können Sie darüber hinaus schnell auf die Daten stark paralleler Analysen zugreifen. Aufgrund des Datenmodells, des Durchsatzes und der Fehlertoleranz eignet sich Apache HBase gut für Arbeitslasten in Anzeigentechnologien, Web-Analysen, Finanzdiensten, Anwendungen, die Zeitreihendaten nutzen, und vieles mehr.
Apache HBase wird nativ in HAQM EMR unterstützt. Verwaltete Apache HBase-Cluster können Sie schnell und einfach in der AWS Management Console, der HAQM EMR API oder in AWS CLI erstellen. Außerdem stehen Ihnen zusätzliche HAQM EMR-Funktionen zur Verfügung, wie etwa eine Vielzahl von HAQM EC2 Instances und HAQM EBS-Volumes für die Cluster-Hardware, die Sicherung und Wiederherstellung in HAQM S3 mithilfe des HAQM EMR File System (EMRFS), der automatische Knotenersatz sowie einfache Befehle zum Ändern der Größe, um Instances dem Cluster hinzuzufügen oder daraus zu entfernen. Sie können auch Hue verwenden, um HBase-Tabellen zu visualisieren und Ihre Daten zu erkunden. Hier erhalten Sie weitere Informationen zu Apache HBase in HAQM EMR.
Erste Schritte mit Apache HBase in HAQM EMR
Erstellen eines kostenlosen KontosHilfe erforderlich? Wenden Sie sich an uns.

Apache HBase ist eine Hochleistungslösung, die Hunderte von Knoten, Milliarden von Zeilen und Millionen von Spalten unterstützt. Dabei wird das Hadoop Distributed File System (HDFS) als fehlertoleranter Datenspeicher genutzt, in dem Dateien mit 3-facher Replikation innerhalb des Clusters gespeichert werden. HAQM EMR unterstützt eine Vielzahl von Instance-Typen und HAQM EBS-Volumes, sodass Sie die Cluster-Hardware zur Optimierung des Preis-Leistungs-Verhältnisses anpassen können. Außerdem können Sie Apache Phoenix für den SQL-Zugriff mit geringer Latenz über umfangreiche HBase-Tabellen und zum Erstellen sekundärer Indizes für eine bessere Leistung verwenden.

Dank der engen Integration in Projekte innerhalb des Apache Hadoop-Ökosystems können Sie auf einfache Weise stark parallele Analyse-Arbeitslasten für die in HBase-Tabellen gespeicherten Daten ausführen. Sie können Apache Phoenix, Apache Hadoop, Apache Hive, Apache Pig und andere Open Source-Anwendungen für Big Data bequem zusammen mit Apache HBase in Ihrem HAQM EMR-Cluster installieren. Die Tools eignen sich auch, um Berichterstattungen, SQL-Abfragen und andere Analyse-Arbeitslasten hinsichtlich Ihrer Daten in Apache HBase auszuführen. Darüber hinaus können Sie mit diesen Tools Daten aus HAQM S3 oder HDFS in Apache HBase-Tabellen importieren/exportieren. Mit Apache Hive lassen sich auch Daten aus Apache HBase mit externen Tabellen in HAQM S3 zusammenführen.

Apache HBase ist ein spaltenbasierter Speicher, in dem Sie zu Filterzwecken für jede Zeile beliebige Spalten definieren können. Darüber hinaus fügt HBase jeder Zelle einen Zeitstempel hinzu. Frühere Versionen können beibehalten werden. Dies bietet Ihnen die Möglichkeit, die Herkunft eines Datensatzes auf einfache Weise zu speichern und aufzurufen. Jede Zelle ist ein Byte-Array, das eine Payload im MB-Bereich speichern kann. Dadurch werden in der Tabelle unterschiedliche Datentypen unterstützt. Apache Phoenix und Apache Hive ermöglichen den SQL-Zugriff über Apache HBase-Tabellen.

Sie können auf einfache Weise innerhalb von wenigen Minuten ein vollständig konfiguriertes HAQM EMR-Cluster starten, in dem Apache HBase und weitere Anwendungen des Apache Hadoop- und Apache Spark-Ökosystems ausgeführt werden. HAQM EMR ersetzt leistungsschwache Knoten automatisch. Darüber hinaus lässt sich die Größe des Clusters auf einfache Weise entsprechend Ihren Anforderungen ändern. Nutzen Sie die Hue-Benutzeroberfläche, um in Apache HBase Tabellen zu verwalten und Daten zu durchsuchen. Mit EMRFS und Hadoop MapReduce können Sie Tabellen in HAQM S3 sichern und wiederherstellen. Darüber hinaus kann Apache HBase in HAQM EMR zur Authorisierung und Verschlüsselung die Funktionssätze von HAQM EMR verwenden. Klicken Sie hier, um weitere Informationen zu den Funktionen von HAQM EMR zu erhalten.
Monster, eine weltweit führende Online-Jobbörse, verwendet Apache HBase in HAQM EMR, um für Downstream-Analysen Daten zu Clickstreams und Werbekampagnen zu speichern. Das Unternehmen kann auf diese Weise die Leistung unterschiedlicher Kundensegmente innerhalb einer Kampagne bis hin zu den einzelnen Impressionen überwachen. Das Analyseteam von Monster verfügt über eine bequeme Möglichkeit zum Durchsuchen der Reihen, um die Anzahl der Aufrufe und Klicks pro Benutzer zu aggregieren und die Kampagnenaktivität zu ermitteln. Darüber hinaus profitiert Monster von der engen Integration von Apache HBase in das Apache Hadoop-Ökosystem. Monster führt Apache Hive in einem separaten HAQM EMR-Cluster aus, um die HBase-Tabelle mit SQL abzufragen. Dies ist für weitere Analysen und zum Exportieren von Daten aus Apache HBase in HAQM Redshift nützlich.
- Einführung in das Erstellen eines HAQM EMR-Clusters mit Apache HBase
- Weitere Informationen zu HBase erhalten Sie auf der Apache Software Foundation-Website für das HBase-Projekt.
- Blogbeitrag zur Einführung von HBase 1.2 in HAQM EMR im AWS Blog