Функции сервиса Данные HAQM Firehose

Почему следует применять сервис «Данные HAQM Firehose»?

Данные HAQM Firehose – это решение, которое предоставляет простейший способ загрузки потоковых данных в хранилища и инструменты аналитики. Данные Firehose – это полностью управляемый сервис, благодаря которому обеспечивается простой сбор, преобразование и загрузка больших объемов потоковых данных из сотен тысяч источников в HAQM S3, HAQM Redshift, Сервисе HAQM OpenSearch, Snowflake, таблицах Apache Iceberg и HAQM S3 (с функцией предварительного просмотра) со стандартных адресов HTTP и из различных сервисов (например, Datadog, New Relic, MongoDB или Splunk), позволяя выполнять их анализ и получать ценные результаты в режиме реального времени.

Потоки Firehose

Open all

Поток Firehose является основной сущностью сервиса Firehose. Сервис Firehose используется для создания потока Firehose и отправки в него данных.

Основные возможности

Open all

Чтобы запустить сервис «Данные HAQM Firehose» и создать поток доставки для загрузки данных в HAQM S3, HAQM Redshift, Сервис HAQM OpenSearch, Snowflake, таблицы Apache Iceberg и HAQM S3 (с функцией предварительного просмотра) на адрес HTTP или в сервисы Datadog, New Relic, MongoDB или Splunk, достаточно нескольких щелчков мышью в Консоли управления AWS. Данные можно отправлять в поток доставки путем вызова API Firehose или через агент Linux, который мы предоставляем для источника данных. После этого Kinesis Data Firehose будет непрерывно загружать данные в указанные места назначения.

После запуска потоки Firehose будут автоматически вертикально масштабироваться, чтобы обрабатывать входные потоки данных со скоростью несколько гигабайтов в секунду и более, а также поддерживать задержку данных на том уровне, который настроен для потока, с учетом предельных значений. При этом не требуется какое-либо вмешательство или обслуживание.

Можно указать размер пакета или интервал отправки, чтобы управлять скоростью передачи данных в конечные точки. Например, можно задать интервал пакетной обработки в диапазоне от нуля секунд до 15 минут. Кроме того, можно указать, требуется ли сжимать данные. Сервис поддерживает распространенные алгоритмы сжатия: GZip, Snappy, совместимый с Hadoop, Zip и Snappy. Формирование пакетов и сжатие данных перед загрузкой позволяет контролировать скорость получения новых данных в местах их приема.

С помощью сервиса Firehose можно легко считывать данные из более чем 20 источников, включая HAQM MSK и бессерверные кластеры MSK, Потоки данных HAQM Kinesis, базы данных (ознакомительная версия), Журналы HAQM CloudWatch, HAQM SNS, AWS IoT Core и другие.

Firehose поддерживает оптимизацию столбцовых форматов данных, например Apache Parquet и Apache ORC, для экономичного хранения и анализа с использованием таких сервисов, как HAQM Athena, HAQM Redshift Spectrum, HAQM EMR и другие инструменты на основе Hadoop. Перед сохранением в HAQM S3 сервис Firehose может конвертировать формат входящих данных из JSON в Parquet или ORC, чтобы снизить стоимость хранения и анализа.

Вы можете динамически разделять данные потоковой передачи перед их доставкой в S3 с помощью статически или динамически определенных ключей, например «customer_id» или «transaction_id».  Благодаря сервису Firehose можно распределять данные на группы по этим ключам и доставлять их в уникальные префиксы S3, что упрощает выполнение высокопроизводительной и эффективной аналитики в S3 с помощью Athena, EMR и Redshift Spectrum. Подробнее

Сервис Данные HAQM Firehose можно настроить на подготовку потоковых данных перед их загрузкой в хранилища данных. Просто выберите функцию AWS Lambda на вкладке конфигурации потока сервиса Данные HAQM Firehose в Консоли управления AWS. Сервис Данные HAQM Firehose будет автоматически применять эту функцию ко всем записям входных данных и загружать преобразованные в конечные точки. Также сервис предлагает встроенные чертежи Lambda для преобразования данных из стандартных источников, таких как журналы Apache или системные журналы, в форматы JSON и CSV. Эти встроенные чертежи можно использовать без изменений или с дополнительными настройками; можно также создать собственные функции. В сервисе Данные HAQM Firehose можно настроить автоматический повторный запуск заданий, завершившихся ошибками, и резервное копирование необработанных потоковых данных. Подробнее

Благодаря Firehose можно легко считывать данные из более чем 20 источников данных, включая HAQM MSK и бессерверные кластеры MSK, Потоки данных HAQM Kinesis, Журналы HAQM CloudWatch, HAQM SNS, AWS IoT Core и другие. В настоящее время в качестве мест назначения сервис «Данные HAQM Firehose» поддерживает HAQM S3, HAQM Redshift, Сервис HAQM OpenSearch, Snowflake, таблицы Apache Iceberg и HAQM S3 (с функцией предварительного просмотра), адреса HTTP, Datadog, New Relic, MongoDB и Splunk. С помощью сервиса можно указать для отправки данных целевую корзину HAQM S3, таблицу HAQM Redshift, домен Сервиса HAQM OpenSearch, адрес HTTP или поставщика сервиса.

Сервис Данные HAQM Firehose предоставляет возможность автоматического шифрования данных после их загрузки в конечную точку. В качестве одной из настроек потоков Firehose можно указать ключ шифрования Сервиса управления ключами AWS (AWS KMS).

Сервис Данные HAQM Firehose предоставляет доступ к нескольким метрикам с помощью консоли, а также в сервисе HAQM CloudWatch. Эти метрики включают информацию об объеме полученных данных, объеме данных, отправленных в целевые объекты, времени прохождения данных от источника к конечной точки, предельных значений для потока Firehose, количестве пропущенных записей, а также коэффициент успешной загрузки.

При использовании сервиса Данные HAQM Firehose оплате подлежит только объем данных, передаваемых через сервис, и преобразование формата данных, если таковое используется. Кроме того, при необходимости оплачивается доставка и передача данных через HAQM VPC. Минимальные платежи и авансовые обязательства отсутствуют. Вам не нужен персонал, который бы следил за работой, осуществлял масштабирование и поддерживал инфраструктуру, или настраиваемые приложения для захвата и потоковой загрузки данных.