Вопросы и ответы по HAQM Redshift
Темы страниц
Общие вопросыОбщие вопросы
Открыть всеЧто такое HAQM Redshift?
Десятки тысяч клиентов ежедневно применяют возможности SQL-аналитики HAQM Redshift в облаке, обрабатывая эксабайты данных для получения ценной информации. Независимо от того, где хранятся ваши данные (в операционном хранилище данных, в сервисах потоковой обработки данных или в сторонних наборах данных), HAQM Redshift помогает вам получать безопасный доступ к данным, комбинировать и совместно использовать их при минимальном перемещении и копировании. Сервис HAQM Redshift глубоко интегрирован в сервисы баз данных, аналитики и машинного обучения AWS, чтобы применять подходы без извлечения, преобразования и загрузки данных или помочь вам обращаться к данным на месте для их анализа в режиме реального времени, построения моделей машинного обучения на SQL и применения аналитических функций Apache Spark к данным в Redshift. HAQM Redshift Serverless позволяет вашим инженерам, разработчикам, специалистам по обработке данных и аналитикам с легкостью приступить к работе и быстро масштабировать аналитику в среде, которой не требуется администрирование. Благодаря своему движку массово-параллельной обработки (MPP) и архитектуре, которая отделяет вычислительные ресурсы от ресурсов хранилищ для эффективного масштабирования, а также инновациям в области повышения производительности с использованием машинного обучения (например, AutoMaterialized Views), HAQM Redshift имеет все возможности для масштабирования и обеспечивает соотношение цены и производительности в 5 раз лучшее, чем другие облачные хранилища данных.
Каковы основные причины, по которым клиенты выбирают HAQM Redshift?
Тысячи клиентов выбирают HAQM Redshift, чтобы ускорить получение результатов, потому что это эффективная аналитическая система, которая тесно интегрируется с сервисами баз данных и машинного обучения, проста в использовании и может стать центральным сервисом, который удовлетворяет все их требования к аналитике. HAQM Redshift Serverless автоматически распределяет и масштабирует мощности хранилища данных, позволяя обеспечить высокую производительность для рабочих нагрузок с высокими и непредсказуемыми требованиями к ресурсам. HAQM Redshift отличается наилучшим соотношением цены и производительности при работе с разнообразными аналитическими рабочими нагрузками: панелями управления, разработкой приложений, совместным использованием данных, заданиями ETL (извлечение, преобразование, нагрузка) и некоторыми другими нагрузками. Учитывая то, что десятки тысяч клиентов используют аналитику для обработки от терабайтов до петабайтов данных, HAQM Redshift повышает производительность реальных рабочих нагрузок клиентов на основании телеметрии производительности парка и обеспечивает производительность, которая масштабируется в линейном соотношении с рабочей нагрузкой, не требуя при этом больших затрат. Инновации в области повышения производительности доступны клиентам без дополнительной платы. HAQM Redshift позволяет получить ценные сведения, выполняя интерактивный и прогностический анализ по всем данным во всех корпоративных базах данных, озерах данных, хранилищах данных, по потоковым данным и наборам данных сторонних организаций. HAQM Redshift поддерживает лучшую в отрасли систему безопасности с интеграцией управления идентификацией и федерацией для единого входа (SSO), многофакторной аутентификацией, контролем доступа на уровне столбцов, контролем доступа на основе ролей, Виртуальным частным облаком HAQM (HAQM VPC) и более быстрым изменением размера кластера.
Каким образом сервис HAQM Redshift упрощает управление хранилищем данных и аналитикой?
Управление HAQM Redshift полностью осуществляется платформой AWS, так что вам не придется беспокоиться о таких задачах по управлению хранилищем данных, как распределение оборудования, применение исправлений, настройка, конфигурирование, мониторинг узлов и дисков для восстановления после сбоев, а также резервное копирование. AWS управляет работами по настройке, эксплуатации и масштабированию хранилища данных от вашего имени, позволяя сосредоточиться на создании приложений. HAQM Redshift Serverless автоматически распределяет и масштабирует мощности хранилища данных, позволяя обеспечить высокую производительность для рабочих нагрузок с высокими и непредсказуемыми требованиями к ресурсам, а также оплачивать только реально используемые ресурсы. HAQM Redshift также поддерживает функцию автоматической настройки и дает рекомендации по управлению складом в Redshift Advisor. Чтобы обеспечить работу Redshift Spectrum, сервис HAQM Redshift управляет всей вычислительной инфраструктурой, балансировкой нагрузки, планированием, разработкой графика запросов к данным, хранящимся в HAQM S3, и выполнением этих запросов. HAQM Redshift обеспечивает аналитику всех ваших данных благодаря тесной интеграции с сервисами баз данных, обладающими такими характеристиками, как работа HAQM Aurora с HAQM Redshift без извлечения, преобразования и загрузки данных и федеративные запросы для доступа к данным на месте из таких операционных баз данных, как HAQM RDS и ваше озеро данных HAQM S3. Redshift обеспечивает ускоренное получение данных за счет автоматизированных конвейеров данных без кода, автоматизированных конвейеров данных, которые автоматически принимают потоковые данные или файлы HAQM S3. Кроме того, Redshift интегрирован с Обменом данными AWS, что позволяет пользователям находить сторонние наборы данных, подписываться на них и отправлять к ним запросы, а также комбинировать их со своими данными, чтобы получать комплексную аналитическую информацию. Благодаря встроенной интеграции с HAQM SageMaker клиенты могут прямо в своем хранилище данных создавать, обучать и компоновать модели машинного обучения на SQL. HAQM Redshift обеспечивает в 5 раз лучшее соотношение цены и производительности использования аналитических возможностей SQL, чем другие облачные хранилища данных.
Какие имеются варианты развертывания HAQM Redshift?
HAQM Redshift является полностью управляемым сервисом, который предоставляет распределенные и бессерверные варианты использования, что повышает эффективность использования и масштабирования аналитики без необходимости самостоятельно управлять хранилищем данных. Вы можете развернуть новый бессерверный адрес HAQM Redshift для автоматического предоставления хранилища данных за считанные секунды или же выбрать готовый вариант для прогнозируемых рабочих нагрузок.
Как начать работу с HAQM Redshift?
Вы можете всего за несколько действий в Консоли управления AWS начать отправлять запросы к данным. Вы можете использовать предварительно загруженные примеры данных, в том числе наборы данных для сравнительного тестирования TPC-H, TPC-DS и другие примеры запросов, которые позволят почти мгновенно начать работу. Чтобы начать работу с HAQM Redshift Serverless, щелкните «Начало работы с HAQM Redshift» и создайте запрос к данным. Начать работу можно здесь.
Как соотносится производительность HAQM Redshift с производительностью других хранилищ данных?
Результаты теста производительности TPC-DS показывают, что HAQM Redshift обеспечивает наилучшую производительность в стандартной конфигурации, даже для сравнительно небольшого набора данных размером 3 ТБ. HAQM Redshift обеспечивает в 5 раз лучшее соотношение цены и производительности, чем другие облачные хранилища данных. Это позволяет вам сразу же получить преимущество благодаря лучшему соотношению цены и производительности HAQM Redshift, причем без дополнительной настройки вручную. На основании телеметрии парка производительности мы также знаем, что большинство рабочих нагрузок используют краткие запросы (рабочие нагрузки, которые выполняются менее чем за секунду). Последние оценочные тестирования показали, что при этих рабочих нагрузках HAQM Redshift демонстрирует в 7 раз лучшее соотношение цены и производительности рабочих нагрузок с высоким уровнем параллельного выполнения и низкой задержкой, чем другие облачные хранилища данных. Подробнее см. здесь.
Может ли кто-то рассказать подробнее об HAQM Redshift и помочь с подключением?
Да, специалисты HAQM Redshift готовы ответить на вопросы и обеспечить поддержку. Напишите нам, и мы свяжемся с вами в течение одного рабочего дня, чтобы рассказать, как AWS может помочь вашей организации.
Что такое управляемое хранилище HAQM Redshift?
Управляемое хранилище HAQM Redshift доступно с типами узлов RA3 и в бессерверной конфигурации. Оно позволяет масштабировать и оплачивать вычислительные ресурсы и хранилище независимо друг от друга. Поэтому размер кластера можно устанавливать в соответствии с потребностями задачи вычисления. Оно автоматически использует высокопроизводительное локальное хранилище на твердотельном накопителе в качестве кэша первого уровня 1 и использует такие средства оптимизации, как температура блока данных, время создания блоков данных и шаблоны рабочей нагрузки. Это обеспечивает высокую производительность при возможном автоматическом масштабировании хранилища в HAQM S3 без необходимости каких-либо действий.
Как использовать управляемое хранилище сервиса HAQM Redshift?
Если вы уже используете узлы HAQM Redshift Dense Storage или Dense Compute, с помощью эластичного изменения размера вы можете обновить существующие кластеры до нового вычислительного инстанса RA3. HAQM Redshift Serverless и кластеры на основе инстансов RA3 автоматически используют для хранения данных хранилище под управлением Redshift. Для использования этой возможности не требуется никаких действий, кроме применения HAQM Redshift Serverless или инстансов RA3.
Как из Redshift отправлять запросы на получение данных, хранящихся в озере данных AWS?
HAQM Redshift Spectrum – это возможность сервиса HAQM Redshift, которая позволяет выполнять запросы к вашему озеру данных в HAQM S3 без загрузки или выполнения ETL-операций. При отправке SQL-запроса он поступает на адрес HAQM Redshift, и этот сервис генерирует и оптимизирует план запроса. HAQM Redshift определяет, какие данные являются локальными, а какие находятся в HAQM S3, генерирует план минимизации объема данных S3, которые необходимо прочитать, и запрашивает исполнителей HAQM Redshift Spectrum из общего пула ресурсов, чтобы прочитать и обработать данные из HAQM S3.
Для каких случаев стоит рассмотреть возможность использования инстансов RA3?
Выбор типов узлов RA3 может быть правильным в следующих случаях.
- Если вам требуется гибко масштабировать и оплачивать вычислительные ресурсы отдельно от хранилища.
- Если вы используете запросы по малой части от общего объема данных.
- Если объем данных быстро растет или будет быстро расти.
- Если сам нужно гибко изменять размер кластера с учетом текущих потребностей.
По мере роста объема данных (до петабайтов) параллельно растет и объем принимаемых в HAQM Redshift данных. Возможно, вам уже нужен более экономичный способ анализа огромных данных.
Новые инстансы HAQM Redshift RA3 с управляемым хранилищем позволяют выбирать число узлов в зависимости от потребностей в производительности и оплачивать только реально используемый объем управляемого хранилища. Это позволяет вам гибко выбирать размер кластера RA3 в зависимости от объема ежедневно обрабатываемых данных, не повышая затраты на хранилище. Инстансы RA3 основаны на AWS Nitro System, используют высокопрозиводительные диски SSD для данных горячего уровня и HAQM S3 для данных холодного уровня, что позволяет получить простое в использовании экономичное хранилище с огромной производительностью для запросов.
Какую функцию можно использовать для аналитики на основании местоположения?
HAQM Redshift Spatial предоставляет возможности аналитики на основе местоположения для глубокого анализа ваших данных. Он без проблем интегрирует пространственные и деловые данные, позволяя выполнять по ним аналитику и принимать решения. HAQM Redshift получил в ноябре 2019 года встроенную поддержку обработки пространственных данных, для которой применяются полиморфный тип данных GEOMETRY и несколько важнейших пространственных функций SQL. Теперь мы поддерживаем тип данных GEOGRAPHY, а библиотека пространственных функций SQL выросла в размере до 80 функций. Мы поддерживаем все самые распространенные пространственные типы данных и стандарты, в том числе Shapefiles, GeoJSON, WKT, WKB, eWKT и eWKB. Подробную информацию вы найдете на странице документации или в учебном пособии по пространственным вычислениям в HAQM Redshift.
Какова поддержка SQL Athena по сравнению с Redshift и как мне выбрать между двумя этими сервисами?
Сервис HAQM Athena и бессерверный сервис HAQM Redshift решают разные задачи и предназначены для разных сценариев, хотя являются бессерверными и подходят для пользователей SQL.
Благодаря архитектуре массово-параллельной обработки (MPP), которая отделяет ресурсы хранилища от вычислительных ресурсов, и возможностям автоматической оптимизации на основе машинного обучения, хранилище данных, такое как HAQM Redshift, независимо от того, является ли оно серверным или выделенным, – это отличный выбор для клиентов, которым нужно наилучшее соотношение цены и производительности в любых масштабах для комплексных аналитических рабочих нагрузок, в том числе для бизнес-аналитики. Клиенты могут использовать HAQM Redshift как центральный компонент своей архитектуры данных с тесной интеграцией, чтобы получать доступ к данным на месте, либо получать или перемещать их в хранилище данных для высокопроизводительной аналитики, делая это без труда благодаря отсутствию необходимости извлекать, преобразовывать и загружать данные и применению методов, не требующих написания кода. Клиенты могут обращаться к данным, которые хранятся в HAQM S3, операционных базах данных, например Aurora и HAQM RDS, сторонних хранилищах данных за счет интеграции с Обменом данными AWS, а также комбинировать их с данными, которые находятся в хранилище данных HAQM Redshift для аналитики. Они могут легко приступить к использованию хранилищ данных и тренировать модели машинного обучения с использованием всех этих данных.
HAQM Athena хорошо подходит для интерактивной аналитики и исследования данных в вашем озере данных или в любом другом источнике данных с использованием расширяемой сети коннекторов (включает в себя более 30 готовых коннекторов для приложений и локальных или других облачных аналитических систем) без необходимости заботиться о получении или обработке данных. Сервис HAQM Athena создан на основе движков и платформ с открытым исходным кодом, таких как Spark, Presto и Apache Iceberg, что дает клиентам гибкость, так как они могут использовать либо Python, либо SQL, либо работать над открытыми форматами данных. Если клиентам требуется интерактивная аналитика на основе платформ и форматов данных с открытым исходным кодом, то HAQM Athena – это отличная стартовая точка.
Распространяется ли гибкость размеров на узлы Redshift Reserved?
Нет, резервные инстансы Redshift Reserved не обладают гибкостью. Они применяются только к тому типу узла, который вы резервируете.
SQL-аналитика HAQM SageMaker
Открыть всеКаковы преимущества использования Redshift в SageMaker для SQL-аналитики?
SageMaker упрощает SQL-аналитику, предлагая полноценную, удобную платформу, которая объединяет множество источников данных и упрощает их исследование. При помощи гибкого интерфейса в виде блокнота можно обращаться к данным из HAQM Simple Storage Service (HAQM S3), HAQM Redshift и других источников данных, писать и запускать запросы на различных движках, а также напрямую создавать визуализации в самом инструменте. Платформа автоматически управляет метаданными ваших данных, облегчая понимание и поиск информации. Благодаря плавной интеграции с другими сервисами AWS платформа позволяет не ограничиваться традиционной SQL-аналитикой, а превращать данные в полезные выводы с минимальными техническими ограничениями.
Нужно ли выполнять миграцию данных из HAQM S3 или существующего хранилища данных HAQM Redshift, чтобы использовать SageMaker для SQL-аналитики?
Нет, вам не нужно выполнять миграцию данных, чтобы использовать SageMaker для SQL-аналитики. Данные можно напрямую находить и запрашивать из различных источников, в том числе из HAQM S3 (Каталог данных AWS Glue и корзины таблиц HAQM S3), HAQM Redshift (бессерверные и инициализированные), а также из 13 дополнительных объединенных источников данных, которые совместимы с рабочими процессами проектирования SQL. HAQM SageMaker Lakehouse легко подключается к вашим существующим данным, поэтому можно не тратить время на перемещение информации, а сосредоточиться на ее изучении. С помощью всего нескольких простых действий можно изучать данные, выполнять запросы и получать ценную информацию о состоянии бизнеса без погружения в технические детали.
Как загрузить данные и начать использовать SageMaker для SQL-аналитики?
Для начала SageMaker предлагает два способа передачи данных на платформу для SQL-аналитики. Если вы храните информацию в HAQM S3, SageMaker SQL позволяет выполнять запросы напрямую к этим данным с помощью озера данных. Кроме того, можно загрузить данные в хранилище, используя команды COPY. Если у вас есть локальные данные на рабочем столе, SageMaker позволяет загружать файлы данных прямо со своего компьютера. Для этого нужно перетащить файлы данных на платформу SageMaker. Также можно применить функцию нулевого использования ETL, чтобы получить информацию из оперативного хранилища данных. Весь процесс построен таким образом, чтобы устранить технические барьеры, что позволяет вам сосредоточиться на поиске новых сведений, а не на решении сложных задач по загрузке данных.
По какому принципу написан интерфейс для книг запросов SageMaker?
HAQM SageMaker Unified Studio (ознакомительная версия) позволяет использовать мощный и удобный интерфейс в виде блокнота для проведения комплексной SQL-аналитики. Можно писать и запускать SQL-код в отдельных ячейках, создавать графики и визуализации, а также изучать объединенные данные из различных источников (например, HAQM S3, HAQM Redshift и разных федеративных источников) с помощью SageMaker Lakehouse. Платформа также поддерживает такие полезные функции, как автозаполнение и проверка синтаксиса, чтобы облегчить работу с SQL. Кроме того, можно использовать функции генеративного искусственного интеллекта с генеративным SQL в решении HAQM Q, которое дает рекомендации по коду SQL на естественном языке. SageMaker разработан, чтобы сделать SQL-аналитику более понятной, гибкой и доступной для всех пользователей данных.
Как можно поделиться SQL-запросами или моделями данных в SageMaker?
HAQM SageMaker Unified Studio (ознакомительная версия) предусматривает использование «проектов», которые являются цифровым рабочим пространством для совместной работы, что помогает командам организовывать и управлять деятельностью по аналитике данных. Воспринимайте их как общую папку и одно безопасное место, где вы можете хранить SQL-запросы, модели данных, код и другие ресурсы. Создавая проект, вы формируете централизованную среду, куда можно пригласить членов команды, предоставить им определенные права доступа и организовать слаженную работу. В этом пространстве можно легко распределить Querybooks, в которых хранятся запросы и модели данных, предоставить доступ к таким источникам данных, как HAQM S3 и Redshift, а также выделить общие вычислительные ресурсы. Платформа поддерживает контроль версий за счет интеграции с Git, что позволяет вашей команде отслеживать изменения, совместно работать над кодом и вести подробную историю работы над SQL-аналитикой. Такой подход гарантирует, что все члены команды смогут просматривать, редактировать и выполнять запросы, поддерживая при этом безопасность и согласованность для разных рабочих нагрузок SQL-аналитики.
Какова модель ценообразования на SQL-аналитику в SageMaker?
Использование редактора SQL в SageMaker не требует дополнительных затрат. Вы платите только за использование доступных вычислительных движков (например, HAQM Athena и HAQM Redshift).
Каковы условия Соглашения об уровне обслуживания (SLA) для SQL-аналитики в HAQM SageMaker?
Соглашения об уровне обслуживания (SLA) для SQL-аналитики в HAQM SageMaker напрямую связаны с SLA базовых SQL-движков (HAQM Redshift и HAQM Athena). Клиенты могут найти подробную информацию об обязательствах по обслуживанию на соответствующих страницах соглашения об уровне обслуживания для HAQM Redshift и HAQM Athena.
Конфигурация Serverless
Открыть всеЧто такое HAQM Redshift Serverless?
HAQM Redshift Serverless – это бессерверный вариант сервиса HAQM Redshift, который позволяет более эффективно эксплуатировать и масштабировать аналитические рабочие нагрузки без настройки и управления инфраструктурой хранилища данных. При использовании Redshift Serverless каждый пользователь, будь то аналитик данных, разработчик, бизнесмен или специалист по работе с данными, получит ценные сведения по своим данным сразу же, как только загрузит эти данные в хранилище данных и начнет выполнять запросы по ним.
Как начать работу с HAQM Redshift Serverless?
Всего несколько действий в Консоли управления AWS позволяют выбрать действие «настройка HAQM Redshift Serverless» и немедленно начать обработку запросов. Вы получите заранее подготовленные примеры наборов данных, например с данными о погоде, о переписи населения и с данными для сравнительного тестирования производительности, а также примеры запросов для немедленного получения аналитических данных. Вы можете создавать базы данных, схемы, таблицы, а также загружать данные из общих хранилищ данных HAQM S3 и HAQM Redshift или восстанавливать состояние из уже существующего снимка состояние подготовленного кластера Redshift. Вы также можете создавать прямые запросы к данным в озере данных HAQM S3, используя Parquet, ORC и другие открытые форматы, или обращаться к данным в операционных базах данных HAQM Aurora, HAQM RDS PostgreSQL и MySQL. См. «Руководство по началу работы».
Какие преимущества дает использование бессерверного HAQM Redshift?
Если у вас нет опыта управления хранилищем данных, можно не изучать особенности установки, настройки, администрирования кластеров или тонкой настройки хранилища данных. Вместо этого сразу займитесь получением важных аналитических выводов по вашим данным или улучшением характеристик основного бизнеса на основе этих данных. Вы оплачиваете только то, что реально используете, сохраняя контроль над расходами. Вы сохраняете все преимущества непревзойденной производительности HAQM Redshift, богатых возможностей SQL, беспроблемной интеграции с озерами данных и операционными хранилищами данных, и даже встроенных возможностей прогнозной аналитики и совместного использования данных. Если вам потребуется тонкая настройка работы хранилища данных, вы можете самостоятельно распределить кластеры Redshift.
Как бессерверный сервис HAQM Redshift работает с другими сервисами AWS?
Вы можете сохранить все богатые аналитические возможности HAQM Redshift, такие как сложные объединения, прямые запросы к данным в озере данных HAQM S3 и в операционных базах данных, материализованные представления, хранимые процедуры, поддержка частично структурированных данных и машинное обучение, а также высокую производительность в большом масштабе. Все связанные сервисы, с которыми интегрируется HAQM Redshift (такие как HAQM Kinesis, AWS Lambda, HAQM QuickSight, HAQM SageMaker, HAQM EMR, AWS Lake Formation и AWS Glue), продолжат работать с HAQM Redshift Serverless.
Какие задачи я могу решать с помощью бессерверного HAQM Redshift?
Вы можете по-прежнему применять все сценарии работы с аналитикой. Простой рабочий процесс начала работы, автоматическое масштабирование и возможность оплаты по мере использования сделают ваш опыт работы с HAQM Redshift Serverless еще более эффективным и экономичным в любом сценарии: при быстром развертывании сред разработки и тестирования, для специальной аналитической обработки, для рабочих нагрузок с непредсказуемыми и сильно изменяющимися потребностями в вычислительных ресурсах или для рабочих нагрузок с нестабильным режимом работы.
Получение и загрузка данных
Открыть всеКак загрузить данные в хранилище данных HAQM Redshift?
В HAQM Redshift можно загрузить данные из целого ряда источников, в том числе из HAQM S3, HAQM RDS, HAQM DynamoDB, HAQM EMR, AWS Glue, Контейнер данных AWS, а также с любого хоста HAQM EC2 или локального хоста, если они поддерживают SSH‑подключение. HAQM Redshift параллельно загружает данные на каждый из вычислительных узлов, чтобы обеспечить максимальную скорость загрузки данных в кластер хранилища. Клиенты могут подключиться к HAQM Redshift с помощью ODBC или JDBC и использовать SQL‑команды INSERT для вставки данных. Обратите внимание: этот способ медленнее, чем загрузка из хранилища S3 или DynamoDB, так как последняя выполняется параллельно на каждый из вычислительных узлов, а загрузка с помощью операторов SQL INSERT происходит посредством единственного ведущего узла. Подробнее о загрузке данных в HAQM Redshift см. в Руководстве по началу работы.
Чем автоматическое копирование Redshift отличается от команды копирования?
Автоматическое копирование Redshift предоставляет возможность автоматизировать инструкции копирования, отслеживая папки HAQM S3 и получая новые файлы без участия клиента. Без автоматизации копирования инструкция копирования сразу не начинает регистрировать процесс получения файлов для существующих файлов. Автоматическое копирование расширяет существующую команду копирования и позволяет: 1) автоматизировать процесс получения за счет отслеживания указанных путей HAQM S3 на предмет появления новых файлов; 2) повторно использовать конфигурации копирования, уменьшая необходимость в создании и запуске новых инструкций копирования при повторяющихся задачах получения; 3) отслеживать загруженные файлы, чтобы избежать дублирования данных.
Как начать работу с автоматическим копированием Redshift?
Для начала работы клиентам нужна папка HAQM S3, доступ к которой можно получить с помощью адреса кластера или бессерверного адреса с использованием связанных ролей IAM. Также нужно создать таблицу Redshift для использования в качестве цели. Когда путь HAQM S3 и таблица Redshift будут готовы, клиенты смогут создать задание копирования с помощью команды копирования. После создания задания копирования Redshift «за кулисами» запускает отслеживание определенного пути HAQM S3 и инициирует выполнение пользовательских инструкций копирования для автоматического копирования новых файлов в целевую таблицу.
Каковы варианты использования интеграции HAQM Redshift для Apache Spark?
Основные примеры использования таковы: 1) клиенты используют HAQM EMR и AWS Glue для запуска заданий Apache Spark, которые обращаются к данным и загружают их в HAQM Redshift в конвейерах получения и преобразования данных (пакетных и потоковых); 2) клиенты используют HAQM SageMaker для машинного обучения с применением Apache Spark и должны получать доступ к данным, хранящимся в HAQM Redshift, для последующего инжиниринга и трансформации; 3) клиенты HAQM Athena используют Apache Spark для интерактивного анализа данных в HAQM Redshift.
Каковы преимущества использования интеграции HAQM Redshift для Apache Spark?
Baikal предоставляет следующие преимущества:
- Простота начала работы и запуска приложений Apache Spark на данных в HAQM Redshift без необходимости вручную настраивать и поддерживать несертифицированные версии Spark
- Удобство использования Apache Spark в различных сервисах AWS, таких как HAQM EMR, AWS Glue, HAQM Athena и HAQM SageMaker, с HAQM Redshift при минимальной настройке
- Повышенная производительность при запуске приложений Apache Spark в HAQM Redshift
Когда следует применять HAQM Aurora с нулевым использованием ETL для HAQM Redshift вместо федеративных запросов?
HAQM Aurora без извлечения, преобразования и загрузки данных в HAQM Redshift позволяет клиентам HAQM Aurora и HAQM Redshift проводить анализ и машинное обучение в режиме, приближенном к реальному времени, с использованием петабайтов данных. Это полностью управляемое решение, которое делает транзакционные данные из HAQM Aurora доступными в HAQM Redshift за считанные секунды после их записи. С помощью HAQM Aurora без извлечения, преобразования и загрузки данных в HAQM Redshift клиенты просто выбирают таблицы HAQM Aurora, содержащие данные, которые они хотят проанализировать с использованием HAQM Redshift, и эта возможность без проблем реплицирует схему и данные в HAQM Redshift. Благодаря этому клиентам все меньше требуется самостоятельно создавать сложные конвейеры данных и управлять ими. Вместо этого они могут уделить все внимание улучшению приложений. С помощью HAQM Aurora без извлечения, преобразования и загрузки данных в HAQM Redshift клиенты могут реплицировать данные из нескольких кластеров баз данных HAQM Aurora в один и тот же инстанс HAQM Redshift, чтобы получать комплексную аналитическую информацию в нескольких приложениях и при этом консолидировать свои основные аналитические ресурсы, достигая значительного снижения затрат и повышения эксплуатационной эффективности. С помощью HAQM Aurora без извлечения, преобразования и загрузки данных в HAQM Redshift клиенты могут также использовать базовые возможности аналитики и машинного обучения HAQM Redshift, такие как материализованные представления, совместное использование данных и федеративный доступ к нескольким хранилищам и озерам данных. Это позволяет клиентам сочетать возможности работы в режиме, приближенному к реальному времени, с базовой аналитикой для эффективного формирования чувствительной ко времени аналитической информации, на которой основываются экономические решения. Кроме того, клиенты используют HAQM Aurora для транзакций, а HAQM Redshift – для аналитики, поэтому вычислительные ресурсы не используются совместно, что обеспечивает производительность и стабильность решения.
Как HAQM Aurora с нулевым использованием ETL для HAQM Redshift относится к другим сервисам AWS и работает с ними?
Интеграция HAQM Aurora с HAQM Redshift с нулевым использованием ETL обеспечивает беспрепятственную интеграцию двух сервисов для транзакционной аналитики.
Как работает получение потоковой передачи?
Потоковые данные отличаются от традиционных таблиц баз данных тем, что когда вы отправляете запрос к потоку, вы захватываете эволюцию отношения, меняющегося со временем. С другой стороны, таблицы захватывают моментальный снимок этого меняющегося со временем отношения. Клиенты HAQM Redshift знакомы с работой с обычными таблицами и проводят последующую обработку (то есть преобразование) данных с помощью обычной пакетной модели, например ELT. Мы предоставляем способ использования материализованных представлений (MV) Redshift, чтобы клиенты могли с легкостью материализовать представление потока в определенном моменте времени, накопленное вплоть до момента выполнения запроса, насколько возможно быстро, чтобы обеспечить поддержку рабочих потоков ELT.
Совместное использование данных
Открыть всеДля чего можно применять совместное использование данных?
Ниже приведены основные примеры использования.
- Центральный кластер ETL предоставляет общий доступ к данным в кластерах бизнес-аналитики, чтобы обеспечить изоляцию рабочих нагрузок чтения и возможность взимать с них плату за доступ.
- Поставщик данных предоставляет общий доступ к данным внешним потребителям.
- Единые наборы данных (о клиентах, продуктах и так далее) совместно используются несколькими бизнес-подразделениями и участвуют в подготовке аналитики и исследованиях данных в пределах всей организации.
- Децентрализация управления хранилищем данных для упрощения процессов.
- Совместное использование данных в средах разработки, тестирования и в рабочей среде.
- Доступ к данным Redshift из другого аналитического сервиса AWS.
Что такое запросы между базами данных в HAQM Redshift?
С помощью запросов между базами данных вы можете легко получать и объединять данные из любой базы данных Redshift, к которой имеете доступ, независимо от того, к какой именно базе данных вы подключены. Вы можете собирать данные из локальных баз в кластере и общих наборов данных, доступных через удаленные кластеры. Запросы между базами данных позволяют гибко организовывать данные в виде отдельных баз данных для поддержки многопользовательских систем.
Кто основные пользователи AWS Data Exchange?
Обмен данными AWS упрощает для всех клиентов AWS безопасный обмен данными и использование данных сторонних организаций на платформе AWS. Аналитики данных, специалисты по работе с данными, менеджеры продуктов, менеджеры портфелей, количественные аналитики, специалисты по клиническим исследованиям и разработчики из любой отрасли всегда ищут возможности применить новые данные для анализа, обучения моделей машинного обучения и принятия решений на основе данных. Но пока не существует единого расположения для поиска данных от разных поставщиков, а также единых стандартов предоставления таких данных. Это означает, что всем приходится мириться с разрозненным набором физических носителей, учетных данных для доступа к FTP и обращений к узкоспециализированным API. С другой стороны, многие организации готовы предоставить доступ к своим данным для исследований и коммерческих целей, но не могут себе позволить создание и поддержку систем и технологий предоставления данных, управления правами и платежами. Все это дополнительно затрудняет получение ценной информации.
Масштабируемость и параллельное выполнение
Открыть всеКак осуществляется масштабирование размера и производительности кластера хранилища данных HAQM Redshift?
Бессерверный сервис HAQM Redshift автоматически предоставляет ресурсы хранилища данных и проводит интеллектуальное масштабирование базовых ресурсов. Бессерверный сервис HAQM Redshift регулирует объем ресурсов за считанные секунды, чтобы обеспечить стабильно высокую производительность и упростить операции даже для самых требовательных и изменчивых рабочих нагрузок. С возможностью параллельного масштабирования можно обслуживать неограниченное количество одновременно работающих пользователей и выполняемых запросов, не теряя производительности при действиях с запросами. При включенной возможности параллельного масштабирования HAQM Redshift автоматически увеличивает объем ресурсов кластера, когда увеличивается очередь запросов.
Чтобы повысить производительность запросов или скорость отклика процессора, памяти или операций ввода‑вывода при ручном масштабировании, можно увеличить количество узлов в кластере хранилища данных. Для этого используйте возможность эластичного изменения размера кластера в Консоли управления AWS или API ModifyCluster. Изменения параметров кластера вступают в действие мгновенно. Метрики использования вычислительных ресурсов, хранилища и трафика чтения и записи данных в кластере хранилища Redshift доступны для бесплатного просмотра посредством Консоли управления AWS или HAQM CloudWatch API. Можно также создать собственные метрики с помощью возможностей HAQM CloudWatch по созданию пользовательских метрик.
С помощью HAQM Redshift Spectrum можно запускать несколько кластеров Redshift, имеющих доступ к одним и тем же данным в HAQM S3. Можно применять разные кластеры для разных примеров использования. Например, один кластер можно использовать для стандартных отчетов, а другой – для исследовательских запросов. Отдел маркетинга может использовать собственные кластеры, которые отличаются от кластеров операционной группы. Redshift Spectrum автоматически распределяет выполнение запроса нескольким исполнителям Redshift Spectrum из общего пула ресурсов для считывания и обработки данных из HAQM S3 и возвращает результаты в кластер Redshift для дальнейшей обработки.
Доступен ли кластер хранилища данных во время масштабирования?
Это зависит от ряда факторов. При использовании функции параллельного масштабирования кластер может выполнять операции считывания и записи в полном объеме. При использовании функции эластичного изменения размера кластер становится недоступным в течение 4–8 минут (времени, необходимом для изменения размера). При использовании функции эластичности управляемого хранилища Redshift RA3 кластер остается полностью доступным, а данные автоматически перемещаются между управляемым хранилищем и вычислительными узлами.
Что представляет собой возможность эластичного изменения размера и чем она отличается от параллельного масштабирования?
Эластичное изменение размера позволяет управлять производительностью отдельного кластера Redshift, в считаные минуты добавляя или удаляя узлы. Например, повышение ETL‑нагрузок в определенные часы в конце дня или месяца, связанные с подготовкой отчетов, может потребовать выделения дополнительных ресурсов HAQM Redshift для своевременного выполнение работы. В отличие от эластичного изменения размера, возможность параллельного масштабирования выделяет дополнительные кластерные ресурсы для увеличения общего количества параллельно выполняемых операций.
Могу ли я обращаться к кластерам параллельного масштабирования напрямую?
Нет. Кластеры параллельного масштабирования представляют собой большой пул масштабируемых ресурсов HAQM Redshift, к которым клиенты не имеют прямого доступа.
Безопасность
Открыть всеКак HAQM Redshift обеспечивает безопасность данных?
HAQM Redshift поддерживает лучшую в отрасли систему безопасности с интеграцией управления идентификацией и федерацией для единого входа (SSO), многофакторной аутентификацией, контролем доступа на уровне столбцов, контролем доступа на основе ролей и Виртуальным частным облаком HAQM (HAQM VPC). При использовании HAQM Redshift ваши данные зашифрованы как при передаче, так и при хранении. Все возможности HAQM Redshift по обеспечению безопасности предлагаются в готовом виде без дополнительной платы для удовлетворения самых строгих требований безопасности, конфиденциальности и соответствию нормативным требованиям. Ваше преимущество в том, что AWS соответствует большему количеству стандартов и имеет больше сертификатов соответствия, чем какой-либо другой поставщик, в том числе ISO 27001, SOC, HIPAA/HITECH и FedRAMP.
Поддерживает ли Redshift точное управление доступом?
Да, HAQM Redshift поддерживает управление доступом на основе ролей. Управление доступом на уровне строк позволяет назначать пользователю одну или несколько ролей, а также назначать системные и объектные разрешения по ролям. Можно использовать предопределенные системные роли: пользователь root, администратор баз данных, оператор и администраторы безопасности. Или можно создать свои собственные роли.
Поддерживает ли HAQM Redshift маскирование или токенизацию данных?
Определяемые пользователем функции (UDF) в AWS Lambda позволяют использовать функцию AWS Lambda в качестве определяемой пользователем функции в HAQM Redshift и вызывать ее в запросах Redshift SQL. Эта возможность позволяет создавать собственные расширения для SQL-запроса, чтобы обеспечить более тесную интеграцию с другими службами и продуктами сторонних производителей. Вы можете создавать UDF Lambda для включения внешней токенизации, маскировки данных, сохранения и удаления идентификационных данных за счет интеграции с такими поставщиками, как Protegrity, а также для организации или снятия защиты конфиденциальных данных на основе разрешений и групп пользователя в ходе обработки запроса.
С помощью динамической маскировки данных клиенты с легкостью могут защитить свои конфиденциальные данные и обеспечить точное управление доступом, управляя политиками маскировки данных. Предположим, у вас есть многопользовательские приложения, и в этих приложениях пользователи и объекты имеют конфиденциальные данные, которые нельзя разглашать всем пользователям. У вас есть требования по предоставлению различных уровней детализации безопасности, которые будут назначаться для различных групп пользователей. Динамическая маскировка данных Redshift может настраиваться и предоставляет пользователям возможность определить непротиворечивые и необратимые замаскированные значения данных с сохранением формата. Когда возможность становится общедоступной, вы сразу же начинаете ее использовать. Администраторы безопасности могут создать и применить политики с помощью всего лишь нескольких команд.
Поддерживает ли HAQM Redshift систему единого входа?
Да. Клиенты, которые хотят использовать своих поставщиков корпоративных удостоверений, таких как Microsoft Azure Active Directory, службы федерации Active Directory, Okta, Ping Federate или других поставщиков удостоверений, совместимых с SAML, могут настроить HAQM Redshift для обеспечения единого входа. В кластер HAQM Redshift можно войти, используя удостоверения Microsoft Azure Active Directory (AD). Это позволяет войти в Redshift без дублирования удостоверений Azure Active Directory в Redshift.
Поддерживает ли HAQM Redshift многофакторную аутентификацию (MFA)?
Да. Многофакторную аутентификацию (MFA) можно использовать для дополнительной безопасности при аутентификации в кластере HAQM Redshift.
Надежность и доступность
Открыть всеКак сбой одного из узлов повлияет на доступность и надежность кластера хранилища данных?
HAQM Redshift автоматически обнаружит и заменит отказавший узел кластера хранилища данных. В кластерах Dense Compute (DC) и Dense Storage (DS2) данные хранятся прямо на вычислительных узлах, чтобы гарантировать высокую надежность данных. При замене такого узла все данные обновляются из зеркальной копии, сохраненной на другом узле. Кластеры RA3 и бессерверный вариант Redshift такая проблема вовсе не затрагивает, так как все данные хранятся в HAQM S3 и попадают на локальный диск только в качестве элементов кэша. Кластер хранилища станет доступен для запросов и обновлений, как только новый узел будет выделен и добавлен к базе данных. HAQM Redshift сразу же обеспечит его доступность и в первую очередь направит на него из хранилища HAQM S3 наиболее часто запрашиваемые данные, что позволит быстро возобновить выполнение запросов. Кластеры, состоящие из одного узла, не поддерживают репликацию данных. Для них в случае сбоя накопителя требуется восстановление кластера из снимка состояния в хранилище S3. В кластерах рабочей среды рекомендуется использовать не менее двух узлов.
Как на доступность и надежность кластера хранилища данных повлияет отключение зоны доступности (AZ), в которой он находится?
Если зона доступности вашего кластера хранилища данных HAQM Redshift развернута в одной зоне доступности и становится недоступной, HAQM Redshift автоматически перемещает кластер в другую зону доступности (AZ) AWS без потери данных и изменения приложений. Чтобы пользоваться этой функцией, необходимо разрешить перемещение данных в настройках кластера.
Каковы преимущества развертывания Redshift в нескольких зонах доступности?
В отличие от развертывания в одной зоне доступности, теперь клиенты могут повысить доступность Redshift, пользуясь хранилищем данных в нескольких зонах доступности. Развертывание в нескольких зонах доступности позволяет вам использовать свое хранилище данных в нескольких зонах доступности AWS (AZ) одновременно и продолжать работать в случае непредвиденной аварии. Для обеспечения непрерывности бизнеса не требуется изменять приложения, поскольку управление развертыванием в нескольких зонах доступности осуществляется с использованием одного адреса. Развертывания в нескольких зонах доступности сокращают время восстановления, гарантируя автоматическое восстановление ресурсов и предназначены для клиентов с важнейшими для бизнеса аналитическими приложениями, которым требуются наивысшие уровни доступности и устойчивость к сбоям зон доступности. Также это позволяет клиентам реализовать решение, которое в большей степени соответствует рекомендациям принципа «Надежность» Платформы AWS Well-Architected. Подробнее о развертывании HAQM Redshift в нескольких зонах доступности здесь.
Что такое RPO и RTO? Какие RPO и RTO поддерживаются при развертывании в нескольких зонах доступности?
RPO – это аббревиатура от Recovery Point Objective (целевая точка восстановления). Этот термин означает гарантию актуальности данных в случае аварии. RPO – это максимальное приемлемое время с момента создания предыдущей точки восстановления данных. Эти термины определяют то, что считается приемлемой потерей данных с момента создания предыдущей точки восстановления до прерывания обслуживания. Развертывание Redshift в нескольких зонах доступности поддерживает RPO = 0. Это означает, что актуальность данных в случае сбоя гарантирована. Наши предпусковые тесты показали, что при развертывании HAQM Redshift в нескольких зонах доступности время RTO составляет до 60 секунд или меньше в маловероятном случае сбоя в зоне доступности.
Каковы сходства и различия между Redshift с несколькими зонами доступности и существующей функцией Redshift Relocation?
Возможность Redshift Relocation по умолчанию включена на всех новых кластерах и бессерверных адресах RA3, что позволяет перезапустить хранилище данных в другой зоне доступности в случае крупномасштабного простоя без потери данных и дополнительных затрат. За использование Relocate плата не взимается, но существуют ограничения. Они заключаются в том, что это лучший подход к обеспечению доступности ресурсов в восстанавливаемой зоне доступности, а на RTO могут влиять и другие проблемы, относящиеся к запуску нового кластера. Это может привести к тому, что время восстановления составит от 10 до 60 минут. Redshift в нескольких зонах доступности отвечает требованиям высокой доступности, обеспечивая RTO в десятые доли секунды и гарантируя непрерывную работу, поскольку не подвержен влиянию ограничения ресурсов или других потенциальных проблем создания нового кластера.
Запросы и аналитика
Открыть всеСовместимы ли HAQM Redshift и Redshift Spectrum с предпочитаемыми мной программами бизнес‑аналитики и инструментами ETL?
Да. В HAQM Redshift используется стандартный язык SQL, а доступ к нему осуществляется посредством стандартных драйверов JDBC и ODBC. Драйверы JDBC и ODBC для HAQM Redshift можно загрузить на вкладке подключения клиента в консоли Redshift. Мы проверили интеграцию сервиса с широко распространенными решениями бизнес‑аналитики и ETL. Для многих из них доступны бесплатные пробные версии, с помощью которых можно приступить к загрузке и анализу данных. На Торговой площадке AWS также можно найти решения для работы с HAQM Redshift, развертывание и настройка которых выполняется за считанные минуты.
HAQM Redshift Spectrum поддерживает все клиентские инструменты HAQM Redshift. Клиентские инструменты могут продолжать подключаться к адресу кластера HAQM Redshift с использованием соединений ODBC или JDBC. Никаких изменений не требуется.
Для доступа к таблицам в Redshift Spectrum используется тот же синтаксис и предоставляются такие же возможности запросов, как для таблиц в локальном хранилище кластера Redshift. Ссылки на внешние таблицы создаются с помощью имени схемы, определенного командой CREATE EXTERNAL SCHEMA, в которой они были зарегистрированы.
Какие форматы данных и форматы сжатия поддерживает HAQM Redshift Spectrum?
В настоящее время HAQM Redshift Spectrum поддерживает множество форматов данных с открытым исходным кодом, включая Avro, CSV, Grok, HAQM Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text и TSV. <br>В настоящее время HAQM Redshift Spectrum поддерживает сжатие Gzip и Snappy.
Что произойдет, если таблица в локальном хранилище имеет то же имя, что и внешняя таблица?
Как и в случае с локальными таблицами, чтобы выбрать нужную таблицу, можно использовать имя схемы, введя параметр schema_name.table_name в запросе.
Я использую Hive Metastore для хранения метаданных об озере данных в S3. Могу ли я использовать Redshift Spectrum?
Да. Команда CREATE EXTERNAL SCHEMA поддерживает метаданные Hive Metastore. В настоящее время для Hive Metastore не поддерживается DDL.
Как получить список всех внешних таблиц базы данных, созданных в кластере?
Чтобы получить эту информацию, можно сделать запрос по системной таблице SVV_EXTERNAL_TABLES.
Поддерживает ли Redshift возможность использования машинного обучения с SQL?
Да, функция HAQM Redshift ML позволяет пользователям SQL легко создавать, обучать и развертывать модели машинного обучения (ML) с помощью распространенных команд SQL. HAQM Redshift ML позволяет обрабатывать свои данные в HAQM Redshift с помощью полностью управляемой службы машинного обучения HAQM SageMaker. HAQM Redshift поддерживает неконтролируемое обучение (методом k-средних) и контролируемое обучение (по алгоритмам Autopilot, XGBoost и MLP). Вы также можете использовать языковые сервисы AWS на основе искусственного интеллекта для перевода, редактирования и анализа текстовых полей в SQL-запросах с помощью предварительно созданных функций Lambda UDF – см. публикацию в блоге.
Имеется ли в HAQM Redshift API для запроса данных?
HAQM Redshift предоставляет API данных, который позволяет без проблем получать доступ к данным из HAQM Redshift с помощью всех типов традиционных, оптимизированных для облака и контейнерных бессерверных приложений на основе веб-сервисов и управляемых событиями приложений. API данных упрощает доступ к HAQM Redshift, и вам не нужно настраивать драйверы и подключения к базе данных. Вместо этого можно запускать команды SQL в кластере HAQM Redshift, просто вызывая защищенный адрес API, предоставляемый API данных. API данных обеспечивает управление подключениями к базе данных и буферизацию данных. API данных является асинхронным, поэтому необходимые результаты можно получить позже. Результаты обработки запроса хранятся 24 часа.
Какие типы учетных данных можно использовать с API данных HAQM Redshift?
API данных поддерживает как учетные данные IAM, так и секретный ключ от AWS Secrets Manager. API данных поддерживает учетные данные AWS Identity and Access Management (IAM), поэтому вы можете пользоваться услугами поставщиков учетных данных, например Okta или Azure Active Directory, а также учетными данными баз данных, хранящимися в Secrets Manager, без передачи таких данных через вызовы API.
Можно ли пользоваться API данных HAQM Redshift из интерфейса командной строки AWS?
Да, вы можете использовать API данных через интерфейс командной строки AWS, используя параметр aws redshift-data.
Интегрирован ли API данных Redshift с другими сервисами AWS?
Вы можете использовать API данных с другими сервисами, например AWS Lambda, AWS Cloud9, AWS AppSync и HAQM EventBridge.
Нужно ли отдельно платить за использование API данных HAQM Redshift?
Нет, отдельная плата за использование API данных не взимается.
Интеграции с нулевым использованием ETL
Открыть всеЧто такое нулевое использование ETL?
Интеграция с нулевым использованием ETL – это набор полностью управляемых AWS интеграций, которые устраняют или минимизируют необходимость создания конвейеров извлечения, преобразования и загрузки данных (ETL). Нулевое использование ETL делает данные из различных операционных источников, транзакционных источников и корпоративных приложений более доступными в SageMaker Lakehouse и HAQM Redshift. ETL – это процесс объединения, очистки и упорядочивания данных из различных источников, чтобы подготовить их к использованию в рабочих нагрузках для аналитики, искусственного интеллекта и машинного обучения. Традиционные процессы ETL требуют много времени и сложны в разработке, обслуживании и масштабировании. Интеграция с нулевым использованием ETL упрощает перемещение данных без необходимости создавать и обслуживать конвейеры ETL.
Посетите раздел о нулевом использовании ETL, чтобы узнать больше.
Какие проблемы, связанные с процессом ETL, решает интеграция с нулевым использованием ETL?
Интеграции с нулевым использованием ETL решают многие из существующих проблем, связанных с перемещением данных в традиционных процессах ETL. Некоторые из таких проблем приведены ниже.
- Увеличение сложности системы из-за запутанных правил сопоставления данных, обработки ошибок и требований безопасности.
- Дополнительные расходы, связанные с ростом объемов данных, модернизацией и обслуживанием инфраструктуры.
- Задержки с выводом решений для аналитики, искусственного интеллекта и машинного обучения из-за разработки и развертывания пользовательского кода, в результате чего упускаются возможности для работы с актуальными примерами использования.
В чем заключаются основные преимущества интеграции с нулевым использованием ETL?
- Повышенная гибкость: интеграция с нулевым использованием ETL упрощает архитектуру данных и сокращает усилия по их проектированию. Она позволяет добавлять новые источники данных без необходимости повторно обрабатывать большие объемы информации. Такие гибкие возможности позволяют легко принимать решения на основе данных и быстро внедрять инновации.
- Экономическая эффективность: в решениях для интеграции данных с нулевым использованием ETL применяются оптимизированные для облака и масштабируемые технологии, позволяющие компаниям сокращать расходы в зависимости от фактического применения и потребностей в обработке данных. Организации уменьшают затраты на инфраструктуру и обслуживание, а также оптимизируют усилия по разработке.
- Быстрое получение информации: традиционные процессы ETL зачастую предусматривают регулярные пакетные обновления, что приводит к задержкам во время получения доступа к данным. А вот интеграции с нулевым использованием ETL обеспечивают доступ к данным практически в режиме реального времени, что позволяет получать более свежие данные для аналитики, искусственного интеллекта и машинного обучения, а также отчетности. Таким образом вы собираете более точные и оперативные аналитические данные для таких сценариев использования, как информационные панели, обновляемые в режиме реального времени, оптимизированный игровой процесс, мониторинг качества данных и анализ поведения клиентов. Организации могут с большей уверенностью строить прогнозы на основе данных, улучшать качество обслуживания клиентов и внедрять анализ на основе данных в масштабах всего бизнеса.
Какие интеграции с нулевым использованием ETL сейчас доступны в AWS?
На re:Invent 2024 мы представим следующие четыре интеграции с нулевым использованием ETL:
- Поддержка HAQM SageMaker Lakehouse и HAQM Redshift для интеграций с нулевым использованием ETL из приложений
- Интеграция HAQM DynamoDB с нулевым использованием ETL с HAQM SageMaker Lakehouse
- Интеграция Сервиса HAQM OpenSearch с нулевым использованием ETL с Журналами HAQM CloudWatch
- Интеграция Сервиса HAQM OpenSearch с нулевым использованием ETL с HAQM Security Lake
С момента запуска интеграций с нулевым использованием ETL мы реализовали семь интеграций:
- Интеграция HAQM Aurora MySQL с HAQM Redshift, с нулевым использованием ETL
- Интеграция HAQM Aurora PostgreSQL с нулевым использованием ETL в HAQM Redshift
- Интеграция HAQM Relational Database Service (HAQM RDS) для MySQL с нулевым использованием ETL с HAQM Redshift
- Интеграция HAQM DynamoDB с Сервисом HAQM OpenSearch с нулевым использованием ETL
- Интеграция HAQM DocumentDB с нулевым использованием ETL c сервисом HAQM OpenSearch
- Интеграция Сервиса HAQM OpenSearch с нулевым использованием ETL c HAQM Simple Storage Service (HAQM S3)
- Интеграция HAQM DynamoDB с нулевым использованием ETL с HAQM Redshift
Какова модель ценообразования нулевого использования ETL?
Чтобы узнать больше о ценообразовании, посетите страницы с ценами на HAQM Redshift, AWS Glue и SageMaker Lakehouse.
Где можно узнать больше о нулевом использовании ETL и этой новой функции?
Чтобы узнать больше о нулевом использовании ETL, посетите соответствующую страницу.
Как происходит обработка изменений схемы с помощью интеграции с нулевым использованием ETL?
Вот несколько основных аспектов, касающихся внесения изменений в схему:
- Такие операторы DDL, как CREATE TABLE, ALTER TABLE, DROP TABLE и т. д., автоматически реплицируются из Aurora в HAQM Redshift.
- В ходе интеграции выполняются необходимые проверки и корректировки таблиц HAQM Redshift на предмет изменений в реплицированных схемах. Например, при добавлении столбца в Aurora такой столбец добавится и в HAQM Redshift.
- Репликация и синхронизация схем автоматически происходят в режиме реального времени с минимальной задержкой между исходной и целевой базами данных.
- Согласованность схем сохраняется даже тогда, когда изменения в DML происходят параллельно с изменениями в DDL.
Как выполнить преобразования данных с нулевым использованием ETL?
Вы можете создать материализованные представления в локальной базе данных HAQM Redshift для преобразования данных, реплицированных с помощью интеграции с нулевым использованием ETL. Подключитесь к локальной базе данных и используйте запросы между базами данных для доступа к целевым базам данных. Можно использовать полные имена объектов, состоящие из трех частей (название-целевой-базы.название-схемы.название-таблицы), либо создать внешнюю схему, ссылающуюся на целевую базу данных и пару схем, и использовать обозначение, состоящее из двух частей (название-внешней-схемы.название-таблицы).
Резервное копирование и восстановление
Открыть всеКак HAQM Redshift выполняет резервное копирование данных? Как восстановить кластер из резервной копии?
Кластеры HAQM Redshift RA3 и сервис HAQM Redshift Serverless используют управляемое хранилище Redshift, в котором всегда доступна самая актуальная копия данных. Кластеры DS2 и DC2 отражают данные кластера, чтобы поддерживать наиболее актуальную копию данных на случай сбоя. Резервные копии автоматически создаются на всех типах кластеров Redshift и сохраняются в течение 24 часов, а для бессерверного варианта предоставляются точки восстановления за последние 24 часа
Вы также можете создавать дополнительные резервные копии, которые будут сохраняться неограниченно долго. Резервные копии можно создавать в любой момент, а также преобразовывать автоматически созданные резервные копии HAQM Redshift или точки восстановления HAQM Redshift Serverless в пользовательские резервные копии для длительного хранения.
Сервис HAQM Redshift может также асинхронно копировать снимки состояния или точки восстановления в хранилище HAQM S3 другого региона для аварийного восстановления.
Объем бесплатного хранилища резервных копий в кластере DS2 или DC2 ограничен и равен общему объему хранилища узлов кластера. Такое бесплатное хранилище предоставляется только для активных кластеров.
Например, если общий объем хранилища данных составляет 8 ТБ, бесплатно вам будет предоставлено не более 8 ТБ для хранения резервных копий. Чтобы продлить срок хранения резервных копий, воспользуйтесь Консолью управления AWS или HAQM Redshift API. Подробные сведения об автоматическом создании снимков состояния содержатся в Руководстве по управлению HAQM Redshift.
HAQM Redshift выполняет резервное копирование только тех данных, которые были изменены, поэтому большая часть снимков состояния занимает небольшой объем в бесплатном хранилище резервных копий. Когда требуется восстановить резервную копию, можно получить доступ ко всем автоматически созданным резервным копиям за соответствующий период хранения. Когда вы выберете резервную копию для восстановления, сервис выделит новый кластер хранилища данных и восстановит данные в него.
Как настроить срок хранения автоматически создаваемых резервных копий и снимков состояния?
Для управления сроками хранения автоматизированных резервных копий измените параметр RetentionPeriod через Консоль управления AWS или ModifyCluster API. Если вы хотите полностью отключить автоматическое резервное копирование, сделайте период хранения равным нулю (не рекомендуется).
Что произойдет с резервными копиями при удалении кластера хранилища данных?
При удалении кластера хранилища данных можно создать снимок его состояния на момент удаления. Это позволит при необходимости восстановить удаленный кластер позднее. Все снимки состояния кластера хранилища данных, созданные ранее вручную, будут сохранены. Плата за их хранение до момента удаления пользователем будет начисляться в соответствии со стандартными тарифами HAQM S3.
Мониторинг и обслуживание
Открыть всеКак осуществляется мониторинг производительности кластера хранилища данных HAQM Redshift?
Метрики использования вычислительных ресурсов, хранилища и трафика чтения и записи данных в кластере хранилища данных HAQM Redshift доступны для бесплатного просмотра посредством Консоли управления AWS или HAQM CloudWatch API. Можно также создать дополнительные собственные метрики с помощью возможностей HAQM CloudWatch по созданию пользовательских метрик. В Консоли управления AWS есть панель управления мониторингом, с помощью которой можно отслеживать работоспособность и производительность всех кластеров. Информация о производительности запросов и кластеров HAQM Redshift также доступна через Консоль управления AWS. Эта информация позволяет увидеть, какие пользователи и запросы потребляют наибольшее количество системных ресурсов, и определить причины снижения производительности, просматривая планы запросов и статистику их выполнения. Кроме того, с помощью этой панели можно контролировать использование ресурсов каждого из вычислительных узлов с целью эффективного распределения данных и запросов по всем узлам.
Что такое окно обслуживания? Доступен ли кластер хранилища данных во время обслуживания программного обеспечения?
HAQM Redshift периодически осуществляет техническое обслуживание, во время которого устанавливает в кластере пользователя исправления, дополнения и новые возможности. Изменить запланированный интервал обслуживания можно путем изменения кластера программным способом либо с помощью консоли Redshift. Во время интервала обслуживания кластер HAQM Redshift недоступен для работы в нормальном режиме. Дополнительные сведения об окнах и графиках обслуживания по регионам см. в разделе Окна обслуживания Руководства по управлению HAQM Redshift.