Простота использования
Open allОбзор
HAQM EMR упрощает создание и эксплуатацию сред больших данных и приложений для них. К функциям EMR относится простое выделение ресурсов, управляемое масштабирование и перенастройка кластеров, а также студия EMR для совместной разработки.
Предоставление кластеров в считанные минуты
Для запуска кластера EMR потребуется несколько минут. Вам не нужно заниматься выделением инфраструктуры, настройкой, конфигурацией или оптимизацией кластера. EMR берет на себя выполнение этих задач, чтобы ваши команды могли сосредоточиться на разработке уникальных приложений для больших данных.
Без труда масштабируйте ресурсы в соответствии с потребностями вашего бизнеса
Вы можете легко добавлять или удалять инстансы с помощью политик управляемого масштабирования EMR, и кластер EMR будет автоматически управлять вычислительными ресурсами с учетом ваших требований к использованию и производительности. Это позволяет эффективнее использовать кластер и сократить расходы.
EMR Studio
Эта интегрированная среда разработки (IDE) позволяет специалистам по работе с данными и инженерам по обработке данных упрощать процесс разработки, визуализации и отладки приложений для обработки или анализа данных, написанных на R, Python, Scala и PySpark. EMR Studio включает в себя полностью управляемые блокноты Jupyter и такие инструменты, как ИП Spark и сервис YARN Timeline, для упрощения отладки.
Высокая доступность одним щелчком
Вы можете легко задать высокую доступность для приложений с несколькими главными узлами, например YARN, HDFS, Apache Spark, Apache HBase и Apache Hive, одним щелчком. После включения в EMR поддержки нескольких главных узлов EMR переведет эти приложения в режим высокой доступности. Тогда в случае отказа нагрузка будет перенесена на резервный основной узел, чтобы кластер продолжал функционировать, а главные узлы будут помещены в отдельные стойки, чтобы минимизировать риск одновременного отказа. Хосты отслеживаются на предмет отказов. В случае обнаружения проблем выделяются новые хосты и автоматически добавляются в кластер.
Управляемое масштабирование EMR
Автоматически изменяет размер кластера для достижения максимальной производительности при минимально возможных затратах. Управляемое масштабирование EMR позволяет задавать минимальные и максимальные пределы вычислений для кластеров, а HAQM EMR автоматически изменяет их размер для обеспечения максимальной производительности и эффективного использования ресурсов. Управляемое масштабирование EMR непрерывно выбирает ключевые метрики, связанные с рабочими нагрузками в кластерах.
Простая перенастройка работающих кластеров
Теперь, чтобы изменить конфигурацию приложений, работающих на базе кластеров EMR, в том числе Apache Hadoop, Apache Spark, Apache Hive и Hue, не нужно перезапускать кластер. Возможность перенастройки приложений EMR – это возможность в любой момент изменять приложения без необходимости останавливать работу кластера или повторно создавать его. HAQM EMR применит изменения в конфигурации и перезапустит перенастроенное приложение. Применять конфигурации можно посредством консоли, SDK или интерфейса командной строки.
Эластичность
Open allОбзор
HAQM EMR позволяет просто и быстро выделять необходимое количество ресурсов, а также добавлять или удалять ресурсы автоматически или вручную. Эта возможность чрезвычайно полезна в тех случаях, когда требования по обработке данных постоянно меняются или их невозможно прогнозировать. Например, если основная масса работы приходится на ночное время суток, потребность в ресурсах может составлять 100 инстансов в дневное время и 500 инстансов в ночное. Другой вариант – значительное возрастание потребности в ресурсах на короткий период времени. В HAQM EMR можно выделить сотни или тысячи инстансов, как только они понадобятся, выполнить автоматическое масштабирование для обеспечения требований к вычислительным ресурсам и остановить кластер по завершении задания, чтобы не платить за лишние ресурсы.
Развертывание множества кластеров
Когда требуется больше ресурсов, можно без труда запустить новый кластер и остановить его по завершении использования. Количество кластеров не ограничено. При наличии множества пользователей или приложений можно использовать множество кластеров. Например, можно хранить входные данные в HAQM S3 и запускать по одному кластеру для каждого обрабатывающего их приложения. Один кластер можно оптимизировать для использования ресурсов ЦПУ, другой – для использования ресурсов хранилища и т. д.
Изменение размеров работающего кластера
HAQM EMR позволяет без труда применять к работающему кластеру Управляемое масштабирование EMR или автоматическое масштабирование, а также изменять его размер вручную. Кластер можно масштабировать в сторону увеличения, чтобы временно повысить его вычислительную мощность, или в сторону уменьшения, чтобы избежать расходов на неиспользуемые ресурсы. Например, пользователи добавляют к своим кластерам сотни инстансов для пакетной обработки данных и удаляют лишние инстансы после завершения пакетной обработки. При добавлении инстансов в кластер EMR теперь можно использовать выделенные ресурсы сразу, как только они становятся доступными. При масштабировании в сторону уменьшения EMR будет заранее выбирать свободные узлы, чтобы уменьшить воздействие на выполняемые задания.
Низкая стоимость
Open allОбзор
HAQM EMR позволяет снизить стоимость обработки больших объемов данных. Снизить стоимость обработки данных позволяют такие возможности, как низкие посекундные тарифы, возможность использования спотовых или зарезервированных инстансов HAQM EC2, эластичность и интеграция с HAQM S3.
Низкие посекундные цены
В HAQM EMR плата начисляется на посекундной основе (минимальный уровень составляет одну минуту) и начинается с 0,015 USD в час за инстанс малого размера (131,40 USD в год). Подробнее см. в разделе цен.
Интеграция спотовых инстансов HAQM EC2
Цена на спотовые инстансы HAQM EC2 изменяется на основании спроса и предложения, но клиенты никогда не платят больше указанной ими максимальной цены. Использование спотовых инстансов в HAQM EMR не представляет никакой сложности и позволяет сэкономить время и деньги. В состав кластеров HAQM EMR входят постоянные узлы с файловой системой HDFS и узлы заданий без нее. Спотовые инстансы лучше всего назначать узлами заданий, потому что в этом случае данные, хранящиеся в файловой системе HDFS, не будут потеряны, если цена спотовых инстансов возрастет и их работа будет прервана. (Подробнее о постоянных узлах и узлах заданий.). Благодаря комбинации парков инстансов, стратегий распределения для спотовых инстансов, Управляемого масштабирования EMR и других возможностей диверсификации теперь вы можете оптимизировать EMR для обеспечения отказоустойчивости и сокращения затрат. См. подробные сведения в нашем блоге.
Интеграция с HAQM S3
Благодаря применению файловой системы EMR (EMRFS) сервис HAQM S3 эффективно и безопасно используется кластерами EMR в качестве хранилища объектов для Hadoop. Данные можно хранить в HAQM S3 и обрабатывать их множеством кластеров HAQM EMR. Каждый кластер оптимизируется для того или иного вида рабочей нагрузки. Это более эффективно, чем использовать один и тот же кластер для разных видов рабочей нагрузки с разными требованиями. Например, из двух кластеров, обрабатывающих одни и те же данные в HAQM S3, один можно оптимизировать для приложений, интенсивно использующих ресурсы ввода‑вывода, а другой – для использования ресурсов ЦПУ. Кроме того, при хранении входных и выходных данных в HAQM S3 можно останавливать кластеры, которые больше не требуются.
EMRFS обеспечивает высокую производительность операций чтения и записи в среде HAQM S3, поддерживает шифрование S3 на стороне сервера и клиента с использованием Сервиса управления ключами AWS (KMS) или клиентских ключей, а также предлагает дополнительное единое представление для проверки согласованности списков и операций чтения после записи для объектов, которые отслеживаются в метаданных. Кластеры HAQM EMR работают как с файловой системой EMRFS, так и с HDFS, поэтому выбирать между хранением данных в кластере и в среде HAQM S3 не потребуется.
Интеграция с Каталогом данных AWS Glue
Каталог данных AWS Glue можно использовать в качестве управляемого репозитория метаданных для хранения метаданных внешних таблиц Apache Spark и Apache Hive. Кроме того, он автоматически обнаруживает схемы данных и хранит историю версий. Это позволяет легко сохранять метаданные внешних таблиц вне кластера в HAQM S3.
Гибкие возможности хранения данных
Open allОбзор
С HAQM EMR можно использовать разные хранилища данных, в том числе HAQM S3, распределенную файловую систему Hadoop (HDFS) и HAQM DynamoDB.
HAQM S3
HAQM S3 – это высоконадежный, масштабируемый, безопасный, производительный и недорогой сервис хранения данных. HAQM EMR использует файловую систему EMR (EMRFS) для эффективного и безопасного хранения объектов Hadoop в HAQM S3. Сервис HAQM EMR значительно усовершенствовал платформу Hadoop и обеспечил эффективную обработку больших объемов данных, хранящихся в HAQM S3. Кроме того, в EMRFS есть дополнительное единое представление для проверки согласованности списков и операций чтения после записи для объектов в HAQM S3. EMRFS поддерживает шифрование S3 на стороне сервера и клиента при работе с зашифрованными объектами в HAQM S3 и позволяет использовать как Сервис управления ключами AWS (KMS), так и собственного поставщика ключей.
При запуске кластера HAQM EMR начинает потоковую передачу данных из HAQM S3 на каждый инстанс кластера и сразу запускает их обработку. Одним из преимуществ хранения данных в HAQM S3 и обработки их с помощью HAQM EMR является возможность обрабатывать одни и те же данные множеством кластеров. Например, кластер разработки Hive, оптимизированный для использования ресурсов памяти, и производственный кластер Pig, оптимизированный для использования ресурсов ЦПУ, могут использовать один и тот же набор входных данных.
Распределенная файловая система Hadoop (HDFS)
HDFS – это файловая система Hadoop. Текущая топология сервиса HAQM EMR объединяет инстансы в три логических группы: группа Master, исполняющая планировщик ресурсов YARN и сервис узлов имен HDFS; группа Core, исполняющая HDFS DataNode Daemon и планировщик узлов YARN, и группа Task, исполняющая планировщик узлов YARN. HAQM EMR устанавливает HDFS в хранилище, связанное с инстансами в группе Core.
К каждому инстансу EC2 по умолчанию подключен фиксированный объем хранилища, называемого «хранилищем инстанса». Хранилище в инстансе можно изменять путем добавления в инстанс томов HAQM EBS. HAQM EMR позволяет добавлять следующие типы томов: универсальные (SSD), выделенные (SSD) и магнитные. Тома EBS, добавленные к кластеру EMR, не сохраняют данные после остановки кластера. Сервис EMR автоматически очищает тома после завершения работы кластера.
Можно также включить полное шифрование для файловой системы HDFS с помощью конфигураций безопасности HAQM EMR или создать вручную зоны шифрования HDFS с помощью сервера управления ключами Hadoop. Вы можете использовать возможность конфигурации безопасности для шифрования корневого устройства EBS и томов хранилища, если укажете AWS KMS в качестве поставщика ключей. См. подробные сведения в разделе о шифровании локального диска.
HAQM DynamoDB
HAQM DynamoDB – полностью управляемый сервис баз данных NoSQL. HAQM EMR напрямую интегрируется с HAQM DynamoDB, что обеспечивает быструю и эффективную обработку хранящихся в HAQM DynamoDB данных и обмен данными между HAQM DynamoDB, HAQM S3 и HDFS в HAQM EMR.
Другие хранилища данных AWS
Можно также использовать HAQM Relational Database Service (веб‑сервис, позволяющий без труда создавать, обрабатывать и масштабировать реляционные базы данных в облаке и управлять ими), HAQM Glacier (сервис хранения данных, отличающийся очень низкой стоимостью и обеспечивающий безопасное и надежное хранение архивов и резервных копий) и HAQM Redshift (высокопроизводительный, полностью управляемый сервис, позволяющий хранить петабайты данных). Конвейер данных AWS – это веб‑сервис, который позволяет безопасно обрабатывать данные и перемещать их между различными вычислительными сервисами и хранилищами AWS (включая HAQM EMR), а также локальными источниками данных в установленный временной промежуток.
Поддержка популярных приложений с открытым исходным кодом
Open allОбзор
Управление версиями релизов HAQM EMR позволяет без труда выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения инфраструктур Apache Spark и Hadoop. Установку и настройку ПО выполняет сервис HAQM EMR, так что вы сможете забыть о работе с инфраструктурой и административных задачах и сосредоточиться на реализации потенциала своих данных.
Инструменты для больших данных
Open allОбзор
HAQM EMR поддерживает использование эффективных и проверенных инструментов Hadoop, таких как Apache Spark, Apache Hive, Presto и Apache HBase. Специалисты по работе с данными применяют EMR для запуска таких инструментов глубокого и машинного обучения, как TensorFlow и Apache MXNet, а используя загрузочные скрипты, можно добавить собственные инструменты и библиотеки, подходящие для конкретного примера использования. Аналитики данных применяют Hue и EMR Notebooks для интерактивной разработки, создания заданий Apache Spark и отправки запросов SQL в Apache Hive и Presto. Инженеры по обработке данных применяют EMR для разработки конвейеров данных и обработки данных, а также используют Apache Hudi для упрощения инкрементного управления данными и случаев, связанных с конфиденциальностью данных, когда требуется вставка на уровне записи, обновления или удаления.
Обработка данных и машинное обучение
Apache Spark – это механизм семейства Hadoop для быстрой обработки больших наборов данных. Он задает преобразование данных с помощью размещенных в оперативной памяти отказоустойчивых распределенных наборов данных (RDD) и направленных ациклических графов (DAG). Spark также включает в себя Spark SQL, Spark Streaming, MLlib и GraphX. Узнайте о том, что такое Spark и как использовать Spark на EMR.
Apache Flink – это механизм обработки потоковых данных, упрощающий обработку потоков в режиме реального времени для источников данных с высокой пропускной способностью. Он поддерживает семантику времени события для событий с нарушением очередности, семантику «ровно один раз», контроль замедленной обратной реакции и интерфейсы API, оптимизированные под написание приложений как для потоковой, так и для пакетной обработки. Узнайте о том, что такое Flink и как использовать Flink на EMR.
TensorFlow – это библиотека символьных математических вычислений с открытым исходным кодом для приложений на базе искусственного интеллекта и глубокого обучения. TensorFlow объединяет множество моделей и алгоритмов машинного и глубокого обучения и может обучать и развертывать глубокие нейронные сети для множества различных примеров использования. Узнайте подробнее о TensorFlow в EMR.
Управление данными HAQM S3 на уровне записи
Apache Hudi – это платформа с открытым исходным кодом для управления данными, упрощающая их инкрементную обработку и разработку конвейера данных. Apache Hudi позволяет управлять данными в HAQM S3 на уровне записи, упрощая захват меняющихся данных и прием потоковой передачи данных, а также представляет платформу для работы с конфиденциальными данными в случаях, когда требуются обновления и удаления на уровне записи. Узнайте подробнее об Apache Hudi в HAQM EMR.
SQL
Apache Hive – это пакет инструментов аналитики и хранилища данных с открытым исходным кодом, представляющий собой надстройку Hadoop. Hive использует язык Hive QL на основе SQL, обеспечивающий структурирование, систематизацию и выдачу запросов данных. Hive QL – это расширение стандартного языка SQL. Он обеспечивает превосходную поддержку функций map / reduce и сложных расширяемых типов данных, определяемых пользователем, например JSON и Thrift. Это позволяет обрабатывать источники сложных неструктурированных данных, такие как текстовые документы и файлы журналов. Hive поддерживает пользовательские расширения с помощью определяемых пользователем функций на Java. HAQM EMR добавляет к Hive целый ряд возможностей, включая прямую интеграцию с HAQM DynamoDB и HAQM S3. Например, при использовании HAQM EMR можно автоматически загружать разделы таблиц из HAQM S3, записывать данные в таблицы в HAQM S3 без использования временных файлов и получать доступ к таким ресурсам в HAQM S3, как скрипты для пользовательских операций map / reduce и дополнительные библиотеки. Узнайте о том, что такое Hive и как использовать Hive на EMR.
Presto – это распределенный механизм обработки запросов SQL с открытым исходным кодом, оптимизированный для выполнения спонтанного анализа данных с низкой задержкой. Оно поддерживает стандарт ANSI SQL, включая комплексные запросы, агрегацию, слияние и функции окон. Presto может обрабатывать данные из множества источников, включая распределенную файловую систему Hadoop (HDFS) и HAQM S3. Узнайте о том, что такое Presto и как использовать Presto на EMR.
Apache Phoenix обеспечивает выполнение SQL‑запросов с низкой задержкой и поддерживает возможность проведения ACID‑транзакций с данными, хранящимися в Apache HBase. Можно без труда создавать вторичные индексы для дополнительного повышения производительности, а также различные представления одной и той же базовой таблицы HBase. Узнайте подробнее о Phoenix в EMR.
NoSQL
Apache HBase – это нереляционная распределенная база данных с открытым исходным кодом на основе базы данных BigTable от Google. Разработанная в рамках проекта Apache Software Foundation's Hadoop, она представляет собой надстройку распределенной файловой системы Hadoop (HDFS) и обеспечивает аналогичные BigTable возможности для Hadoop. HBase обеспечивает эффективное отказоустойчивое хранение большого количества разреженных данных за счет сжатия и хранения по столбцам. Кроме того, HBase обеспечивает быстрый поиск данных, поскольку кэширует данные в памяти. База данных HBase оптимизирована для операций последовательной записи и эффективно выполняет операции пакетной вставки, обновления и удаления данных. HBase эффективно работает с Hadoop, используя его файловую систему и обеспечивая прямой ввод и вывод данных для заданий Hadoop. БД HBase также интегрируется с Apache Hive, поддерживая запросы SQL-типа к таблицам HBase, запросы на соединение с таблицами Hive и стандарт Java Database Connectivity (JDBC). EMR дает возможность использовать S3 в качестве хранилища данных для HBase, что уменьшает затраты и снижает эксплуатационную сложность. Если файловая система HDFS используется в качестве хранилища данных, то можно создать резервную копию HBase в S3, а затем восстановить данные из ранее созданной резервной копии. Узнайте о том, что такое HBase и как использовать HBase в EMR.
Интерактивная аналитика
Студия EMR – это интегрированная среда разработки (IDE), которая упрощает специалистам по работе с данными и инженерам по обработке данных разработку, визуализацию и отладку приложений для обработки или анализа данных, написанных на R, Python, Scala и PySpark. EMR Studio включает в себя полностью управляемые блокноты Jupyter и такие инструменты, как ИП Spark и сервис YARN Timeline, для упрощения отладки.
Hue – это пользовательский интерфейс с открытым исходным кодом для Hadoop, упрощающий запуск и разработку запросов Hive, управление файлами в HDFS, запуск и разработку сценариев Pig и управление таблицами. Hue в EMR также интегрируется с HAQM S3, что позволяет создавать запросы непосредственно к объектам в S3 и без труда осуществлять обмен файлами между HDFS и HAQM S3. Подробнее о Hue и EMR.
Блокнот Jupyter – это веб‑приложение с открытым исходным кодом, с помощью которого можно создавать документы, содержащие рабочий код, уравнения, визуализации и описательный текст, и обмениваться ими. JupyterHub позволяет размещать на сервере множество экземпляров однопользовательских блокнотов Jupyter. Когда вы создаете кластер EMR с JupyterHub, EMR создает на главном узле кластера контейнер Docker. В этом контейнере запускаются JupyterHub, все компоненты, необходимые для Jupyter, и Sparkmagic.
Apache Zeppelin – это графический пользовательский интерфейс с открытым исходным кодом для создания интерактивных блокнотов с возможностью совместного использования для исследования данных с помощью Spark. Для работы с данными и быстрой визуализации результатов можно использовать языки Scala, Python, SQL (с модулем Spark SQL) или HiveQL. С блокнотами Zeppelin могут совместно работать несколько пользователей, а визуализацию можно публиковать на внешних панелях управления. Подробнее о Zeppelin в EMR.
Планирование и рабочие процессы
Apache Oozie – это планировщик рабочих процессов для Hadoop, позволяющий создавать направленные ациклические графы (DAG) действий. Он также позволяет без труда запускать рабочие процессы Hadoop при выполнении некоторого действия или в определенный момент времени. Подробнее об Oozie для EMR. Интеграция с AWS Step Functions позволяет добавлять в приложения автоматизацию бессерверных рабочих процессов. Этапы рабочего процесса можно выполнять где угодно, в том числе в функциях AWS Lambda, в HAQM Elastic Compute Cloud (EC2) или локально. Подробнее о Step Functions для EMR.
Другие проекты и инструменты
EMR также поддерживает широкий спектр других распространенных приложений и инструментов, таких как R, Apache Pig (обработка данных и извлечение, преобразование и загрузка данных), Apache Tez (выполнение сложных DAG), Apache MXNet (глубокое обучение), Mahout (машинное обучение), Ganglia (мониторинг), Apache Sqoop (модуль подключения реляционных баз данных), HCatalog (управление таблицами и хранилищем) и т. д. Команда HAQM EMR осуществляет поддержку репозитория сценариев начальной загрузки с открытым исходным кодом для установки дополнительного ПО и настройки кластера. Их также можно использовать в качестве примеров для создания собственных скриптов начальной загрузки.
Контроль доступа к данным
Open allОбзор
По умолчанию процессы приложения HAQM EMR используют профиль инстанса EC2, вызывая другие сервисы AWS. Для многопользовательских кластеров HAQM EMR предоставляет три варианта управления доступом пользователей к данным HAQM S3.
Интеграция с AWS Lake Formation дает вам возможность определять точно настраиваемые политики авторизации и управлять ими в AWS Lake Formation для доступа к базам данных, таблицам и столбцам в Каталоге данных AWS Glue. Вы можете принудительно применить политики авторизации к заданиям, которые отправлены с помощью Блокнотов HAQM EMR и Apache Zeppelin для интерактивных рабочих нагрузок EMR Spark, и отправлять события аудита в AWS CloudTrail. Включив эту интеграцию, вы также включаете федеративный единый вход в EMR Notebooks или Apache Zeppelin из систем корпоративных удостоверений, совместимых с Security Assertion Markup Language (SAML) 2.0.
Встроенная интеграция с Apache Ranger дает возможность настроить новый или существующий сервер Apache Ranger для детального определения политик авторизации пользователей и управления этими политиками, чтобы организовать доступ к базам данных, таблицам и столбцам данных HAQM S3 через Hive Metastore. Apache Ranger – это инструмент с открытым исходным кодом для создания и мониторинга полнофункциональной системы защиты данных в масштабах платформы Hadoop, а также управления ею.
Такая встроенная интеграция дает возможность определять три типа политик авторизации на сервере администрирования политик Apache Ranger. Для Hive Можно установить авторизацию на уровне таблицы, столбца и строки, для Spark – на уровне таблицы и столбца, а для HAQM S3 – на уровне префикса и объекта. HAQM EMR автоматически устанавливает и настраивает соответствующие плагины Apache Ranger в кластере. Эти подключаемые модули Ranger синхронизируют политики авторизации с сервером администрирования политик, принудительно применяют контроль доступа к данным и отправляют события аудита в Журналы HAQM CloudWatch.
Средство привязки ролей HAQM EMR дает возможность применять разрешения AWS IAM для управления доступом к ресурсам AWS. Можно создавать привязки между пользователями (или группами) и настраиваемыми ролями IAM. Пользователь или группа имеют доступ только к тем данным, к которым им разрешает обращаться настраиваемая роль IAM. Эта функция на данный момент доступна в Лабораториях AWS.
Создание единообразной гибридной среды
Open allОбзор
AWS Outposts – это полностью управляемый сервис, который делает инфраструктуру, сервисы, API и инструменты AWS доступными практически для любого центра обработки данных, колокационного пространства или локального объекта, а также позволяет создать действительно единообразную гибридную среду. Благодаря HAQM EMR на AWS Outposts можно развертывать кластеры EMR и управлять ими в центре обработки данных с помощью Консоли управления AWS, пакетов средств разработки ПО (SDK) и интерфейса командной строки (CLI), используемых для EMR.
Дополнительные возможности
Open allВыбор подходящего инстанса для кластера
Можно выбирать типы инстансов EC2 для своего кластера (стандартные, оптимизированные для использования ресурсов памяти, ЦПУ, выполнения операций ввода‑вывода и т. д.) исходя из потребностей приложения. Вы получаете доступ с правами root к каждому инстансу и можете выполнять настройку кластера в полном соответствии с текущими требованиям. Подробнее о поддерживаемых типах инстансов HAQM EC2. Теперь HAQM EMR позволяет снизить затраты на 30 % и повысить производительности до 15 % для рабочих нагрузок Spark на инстансах на базе Graviton2. См. подробные сведения в нашем блоге.
Контроль сетевого доступа к кластеру
Кластер можно запускать в HAQM Virtual Private Cloud (VPC) – логически изолированном разделе Облака AWS. Таким образом можно полностью контролировать среду виртуальной сети, в том числе выбирать собственный диапазон IP-адресов, создавать подсети, а также настраивать таблицы маршрутизации и сетевые шлюзы. Подробнее об HAQM EMR и HAQM VPC.
Отладка приложений
При выполнении отладки приложений в кластере сервис HAQM EMR архивирует файлы журналов в HAQM S3, а затем проводит их индексацию. После этого для просмотра журналов и истории заданий можно использовать интуитивно понятный графический интерфейс консоли. Подробнее об отладке заданий HAQM EMR.
Управление пользователями, разрешениями и шифрованием
Для управления доступом и разрешениями можно использовать инструменты Управления идентификацией и доступом AWS (IAM), такие как пользователи и роли IAM. Например, определенным пользователям можно открыть доступ к кластерам для чтения, но не для записи. Кроме того, можно использовать конфигурации безопасности HAQM EMR для настройки различных вариантов шифрования хранимых и передаваемых данных, включая поддержку шифрования HAQM S3 и аутентификацию по протоколу Kerberos. Узнайте подробнее об управлении доступом к кластеру и возможностях шифрования HAQM EMR.
Мониторинг кластера
HAQM CloudWatch можно использовать для мониторинга пользовательских метрик HAQM EMR, таких как среднее число запущенных задач map и reduce. Для этих метрик можно также настроить отправку оповещений. Подробнее о мониторинге кластеров HAQM EMR.
Установка дополнительного ПО
Для установки дополнительного ПО в кластере можно использовать загрузочные сценарии или настраиваемый Образ машины HAQM (AMI) под управлением HAQM Linux. Загрузочные скрипты выполняются в узлах кластера, когда сервис HAQM EMR запускает кластер. Скрипты запускаются перед началом работы Hadoop, до того, как узел начнет обрабатывать данные. Можно также предварительно загрузить и использовать программное обеспечение в собственном образе HAQM Linux AMI. Узнайте подробнее о загрузочных сценариях HAQM EMR и настраиваемых образах HAQM Linux AMI.
Реагирование на события
Типы событий HAQM EMR можно использовать в Событиях HAQM CloudWatch для реагирования на изменения состояния кластеров HAQM EMR. С помощью простых быстро настраиваемых правил можно сопоставлять события и перенаправлять их в темы HAQM SNS, функции AWS Lambda, очереди HAQM SQS и т. д. Подробнее о событиях в кластерах HAQM EMR.
Эффективное копирование данных
Большие объемы данных можно быстро перемещать между HAQM S3 и HDFS, а также между корзинами HAQM S3 с помощью инструмента S3DistCp от HAQM EMR. Это расширение инструмента с открытым исходным кодом Distcp, который использует MapReduce для эффективного перемещения больших объемов данных. Подробнее о S3DistCp.
Планирование повторяющихся рабочих процессов
С помощью Конвейера данных AWS можно планировать повторяющиеся рабочие процессы, затрагивающие HAQM EMR. AWS Data Pipeline – это веб‑сервис, который позволяет безопасно обрабатывать данные и перемещать их между различными вычислительными сервисами и сервисами хранилища AWS, а также пользовательскими локальными источниками данных в установленный временной промежуток. Подробнее об HAQM EMR и AWS Data Pipeline.
Пользовательские файлы JAR
Напишите программу Java, скомпилируйте ее для нужной версии Hadoop и загрузите в HAQM S3. После этого можно будет отправлять задания Hadoop в кластер с помощью интерфейса Hadoop JobClient. Подробнее об обработке собственных файлов JAR с помощью HAQM EMR.
Глубокое обучение
Использование популярных платформ для глубокого обучения, например Apache MXNet, позволяет определять, обучать и развертывать глубокие нейронные сети. Эти платформы можно использовать в кластерах HAQM EMR с инстансами на графических процессорах. Подробнее об MXNet в HAQM EMR.