Apache HBase в HAQM EMR

Преимущества Apache HBase для EMR

HAQM EMR изначально поддерживает Apache HBase, предоставляя доступ в реальном времени к таблицам, которые можно масштабировать до миллиардов строк и миллионов столбцов. HAQM EMR сочетает преимущества Apache HBase с открытым исходным кодом – хранилища данных, ориентированного на столбцы, в распределенных системах – с надежностью, производительностью, интеграцией и инструментами HAQM EMR. Вы можете обеспечить стабильную запись и чтение, а также запрашивать результаты по петабайтам данных за миллисекунды для выполнения критически важных рабочих нагрузок в сфере финансовых услуг, рекламных технологий, веб-аналитики и приложений с использованием данных временных рядов. Существующие приложения Apache HBase будут работать в HAQM EMR без изменений кода. Подробнее об Apache HBase на HAQM EMR.

Функции и преимущества

HAQM EMR позволяет применять HAQM S3 в качестве хранилища данных для Apache HBase с использованием файловой системы EMR. Использование HAQM S3 в качестве хранилища данных позволяет отделить вычисления от хранения данных и обеспечивает ряд преимуществ по сравнению с кластерной распределенной файловой системой Hadoop (HDFS) из Apache Hadoop. Вы можете сэкономить средства, определив размер кластера с учетом требований к вычислениям, а не к хранению данных в HDFS, и при этом получить доступность и надежность HAQM S3 для хранения данных. Вы можете масштабировать вычислительные узлы, не влияя на базовое хранилище, прекратить работу кластера по завершении задания, чтобы сэкономить средства, и быстро восстановить кластер, когда это необходимо. Кроме того, можно создать и настроить кластер реплики чтения в зоне доступности HAQM EC2, где находится основной кластер, обеспечивающий доступ к данным только для чтения. Это гарантирует непрерывный доступ к используемым данным, даже если основной кластер становится недоступным. HAQM EMR также сохраняет файлы данных Apache HBase (HFiles) в HAQM S3.

База данных Apache HBase рассчитана на обеспечение высокой производительности при увеличении масштаба до сотен узлов для работы с миллионами столбцов и миллиардами строк в произвольном доступе. Она использует HAQM S3 (с EMRFS) или распределенную файловую систему Hadoop (HDFS) в качестве отказоустойчивого хранилища данных. Сервис HAQM EMR поддерживает множество типов инстансов и томов HAQM EBS, что позволяет индивидуально настраивать аппаратное обеспечение кластера для оптимизации затрат и производительности.

Запустить полностью настроенный кластер HAQM EMR с Apache HBase и другими приложениями семейств Apache Hadoop и Apache Spark можно очень просто, за считанные минуты. Сервис HAQM EMR производит автоматическую замену низкопроизводительных узлов и позволяет без труда изменять размер кластера в соответствии с потребностями. Управлять таблицами и просматривать данные в Apache HBase можно с помощью пользовательского интерфейса Hue, а создавать резервные копии таблиц и восстанавливать их в HAQM S3 очень просто благодаря файловой системе EMRFS и Hadoop MapReduce. Вдобавок хранилище Apache HBase на HAQM EMR поддерживает авторизацию HAQM EMR, аутентификацию по протоколу Kerberos и набор функций шифрования. Нажмите здесь, чтобы получить дополнительные сведения о функциях сервиса HAQM EMR.

HAQM EMR позволяет применять HAQM S3 в качестве хранилища данных для Apache HBase с использованием файловой системы EMR. Разделение хранилища и вычислительных узлов кластера путем использования HAQM S3 в качестве хранилища данных обеспечивает ряд преимуществ по сравнению с файловой системой HDFS на кластере. Можно сэкономить, определив размер кластера на основе требований к вычислительным ресурсам, а не требований к хранилищу данных HDFS, и получить при этом доступное и надежное хранилище на базе S3. Можно масштабировать вычислительные узлы без влияния на базовое хранилище, прекращать работу кластера для сокращения расходов, а затем быстро его восстанавливать. Кроме того, можно создать и настроить кластер реплики чтения в другой зоне доступности HAQM EC2, обеспечивающий доступ только для чтения к тем же данным, что и основной кластер. Это гарантирует непрерывный доступ к используемым данным, даже если основной кластер становится недоступным.

Истории успеха клиентов, использующих HBase и EMR

Истории успеха клиентов: FINRA

FINRA использует HAQM EMR для запуска Apache HBase на HAQM S3, благодаря чему удается быстро получить доступ к триллионам торговых записей и сократить расходы более чем на 60 %.

Логотип Finra

Истории успеха клиентов: Monster

Monster использует Apache HBase в HAQM EMR для хранения данных об анализе навигации и рекламных кампаниях, а также выполнения SQL-запросов с помощью Apache Hive.

Логотип Monster