HAQM EMR の Apache HBase

EMR での Apache HBase を使用すべき理由

HAQM EMR は Apache HBase をネイティブにサポートしているため、数十億行、数百万列にスケールできるテーブルにリアルタイムでアクセスできます。HAQM EMR は、オープンソースの Apache HBase (分散システム上の列指向データストア) の利点と、HAQM EMR の耐久性、パフォーマンス、統合、ツール機能を兼ね備えています。書き込みと読み取りの一貫性が強く、数ミリ秒以内にペタバイト単位のデータで結果をクエリできるため、金融サービス、アドテック、ウェブ分析、時系列データを使用したアプリケーションにおけるミッションクリティカルなワークロードを強化できます。既存の Apache HBase アプリケーションは、コードを変更することなく HAQM EMR で動作します。詳細については、「Apache HBase on HAQM EMR」をご覧ください。

特徴と利点

HAQM EMR では、EMR ファイルシステムを使用して HAQM S3 を Apache HBase のデータストアとして使用できます。 HAQM S3 をデータストアとして使用すると、コンピューティングをストレージから切り離すことができ、Apache Hadoop のクラスター上の Hadoop 分散ファイルシステム (HDFS) に比べていくつかの利点があります。HDFS データストレージの要件ではなく、コンピューティング要件に合わせてクラスターのサイズを設定することでコストを節約できると同時に、データストレージとして HAQM S3 の可用性と耐久性を実現できます。基盤となるストレージに影響を与えずにコンピューティングノードをスケールし、ジョブが終了したらクラスターを終了してコストを節約し、必要なときにクラスターをすばやく復元できます。プライマリクアスターが存在する HAQM EC2 アベイラビリティーゾーンにリードレプリカクラスターを作成すると、同じデータへの読み取り専用アクセスが可能になり、プライマリクラスターが利用できなくなった場合でもデータへのアクセスを中断させずにすみます。また、HAQM EMR は Apache HBase データファイル (HFile) を HAQM S3 に永続化します。

Apache HBase は、数百のノードにスケールアウトして、数十億の行と数百万の列へのランダムアクセスに対応しつつ、パフォーマンスを維持できるよう設計されています。HAQM S3 (EMRFS を使用) または Hadoop Distributed Filesystem (HDFS) を、耐障害性のあるデータストアとして利用します。HAQM EMR は幅広いインスタンスタイプと HAQM EBS ボリュームをサポートしているため、コストとパフォーマンスが最適化されるようクラスターのハードウェアをカスタマイズできます。

数分で、すべて設定済みの HAQM EMR クラスターを簡単に起動し、Apache HBase、その他の Apache Hadoop や Apache Spark エコシステムのアプリケーションを実行することができます。HAQM EMR ではパフォーマンスの低いノードが自動的に置き換えられ、要件を満たすようにクラスターのサイズを簡単に調整することができます。Apache HBase では、Hue UI を使用してテーブルを管理したり、データを参照したりできるほか、EMRFS と Hadoop MapReduce を使用して、テーブルを簡単に HAQM S3 にバックアップおよび復元することもできます。さらに、HAQM EMR での Apache Hbase は、HAQM EMR の認可、Kerberos 認証、暗号化機能セットを使用できます。 HAQM EMR の特徴の詳細については、こちらをクリックしてください。

HAQM EMR では、EMR ファイルシステムを使用して HAQM S3 を Apache HBase のデータストアとして使用できます。HAQM S3 をデータストアとして使用し、クラスターのストレージノードとコンピューティングノードを分けることには、オンクラスターの HDFS と比較していくつかの利点があります。HDFS データストレージの代わりにコンピューティングの必要に合わせてクラスターのサイズを設定することでコストを節約し、S3 ストレージの持つ可用性と耐久性を手に入れ、基盤となるストレージに影響を与えることなくコンピューティングノードをスケールすることが可能になります。また、コスト節減のためにクラスターを削除することや必要なときにすばやく回復することも可能です。別の HAQM EC2 アベイラビリティーゾーンにリードレプリカクラスターを作成し、プライマリクラスターと同じデータへの読み取り専用アクセスを設定すれば、プライマリクラスターが利用できなくなった場合でもデータへのアクセスを中断させずにすみます。

HBase と EMR に関するお客様事例

FINRA のお客様事例

FINRA は、HAQM EMR を使用して HAQM S3 で Apache HBase を実行しています。これにより、何兆もの取引記録にすばやくアクセスでき、60% 以上のコストを削減できます。

Finra のロゴ

Monster のお客様事例

Monster は Apache HBase on HAQM EMR を使用して、クリックストリームと広告キャンペーンのデータを保存し、Apache Hive で SQL クエリを実行します。

Monster のロゴ