Perguntas frequentes do HAQM Redshift
Tópicos da página
GeralGeral
Abrir tudoO que é o HAQM Redshift?
Dezenas de milhares de clientes usam o HAQM Redshift todos os dias para executar análises SQL na nuvem, processando exabytes de dados para insights de negócios. Independentemente de os seus dados cada vez mais volumosos estarem armazenados em armazenamentos de dados operacionais, data lakes, serviços de dados de streaming ou conjuntos de dados de terceiros, o HAQM Redshift ajuda você a acessar, combinar e compartilhar dados com segurança com o mínimo de movimento ou cópia. O HAQM Redshift está profundamente integrado aos serviços de banco de dados, análise e machine learning da AWS para empregar abordagens de ETL zero ou ajudar você a acessar dados locais para análises quase em tempo real, criar modelos de machine learning em SQL e habilitar a análise do Apache Spark usando dados no Redshift. O HAQM Redshift Serverless permite que engenheiros, desenvolvedores, cientistas de dados e analistas comecem facilmente e dimensionem análises rapidamente em um ambiente de administração zero. Com seu mecanismo e arquitetura Massively Parallel Processing (MPP) que separa computação e armazenamento para dimensionamento eficiente e inovações de desempenho orientadas por machine learning (por exemplo: AutoMaterialized Views), o HAQM Redshift foi criado para grande escala e oferece performance de preço até cinco vezes melhor do que outros armazenamentos de dados na nuvem.
Quais são os principais motivos pelos quais os clientes escolhem o HAQM Redshift?
Milhares de clientes escolhem o HAQM Redshift para acelerar seu tempo de obtenção de insights porque ele é um poderoso sistema de análise que se integra bem aos serviços de banco de dados e machine learning, é simplificado para uso e pode se tornar um serviço central para atender a todas as suas necessidades de análise. O HAQM Redshift Serverless provisiona e dimensiona automaticamente a capacidade do data warehouse para oferecer alta performance para workloads exigentes e imprevisíveis. O HAQM Redshift oferece a melhor relação preço/performance para diversas workloads de análise, sejam elas painéis, desenvolvimento de aplicações, compartilhamento de dados, tarefas de ETL (extrair, transformar, carregar) ou várias outras. Com dezenas de milhares de clientes executando análises em terabytes a petabytes de dados, o HAQM Redshift otimiza a performance real da performance do cliente, com base na telemetria de performance da frota e oferece performance que se adapta linearmente à workload, mantendo os custos baixos. As inovações de performance estão disponíveis para os clientes sem custo adicional. O HAQM Redshift permite que você obtenha insights da execução de análises preditivas e em tempo real em todos os seus dados em seus bancos de dados operacionais, data lake, data warehouse, dados de streaming e conjuntos de dados de terceiros. O HAQM Redshift oferece suporte à segurança líder do setor com gerenciamento de identidade e federação integrados para autenticação única (SSO), autenticação multifator, controle de acesso em nível de coluna, segurança em nível de linha, controle de acesso baseado em funções, HAQM Virtual Private Cloud (HAQM VPC) e redimensionamento mais rápido do cluster.
Como o HAQM Redshift simplifica o gerenciamento de análises e data warehouse?
O HAQM Redshift é totalmente gerenciado pela AWS, portanto, você não precisa mais se preocupar com tarefas de gerenciamento de data warehouse, como provisionamento de hardware, patch de software, instalação, configuração, monitoramento de nós e drives para recuperação de falhas ou backups. A AWS gerencia o trabalho necessário para configurar, operar e escalar um data warehouse em seu nome, liberando você para se concentrar na construção de aplicações. O HAQM Redshift Serverless provisiona e escala automaticamente a capacidade do data warehouse para oferecer alta performance para workloads exigentes e imprevisíveis, e você paga apenas pelos recursos que usa. O HAQM Redshift também tem capacidades de ajuste automático e recomendações de superfície para gerenciar seu warehouse no Redshift Advisor. Para o Redshift Spectrum, o HAQM Redshift gerencia toda a infraestrutura de computação, balanceamento de carga, planejamento, programação e execução de suas consultas nos dados armazenados no HAQM S3. O HAQM Redshift permite a análise de todos os seus dados com integração profunda em serviços de banco de dados com recursos como HAQM Aurora Zero-ETL para HAQM Redshift e consulta federada para acessar dados no local de bancos de dados operacionais como o HAQM RDS e seu data lake HAQM S3. O Redshift permite a ingestão simplificada de dados com pipelines de dados automatizados e sem código que ingerem dados de streaming ou arquivos do HAQM S3 automaticamente. O Redshift também é integrado ao AWS Data Exchange, permitindo que os usuários encontrem, assinem e consultem conjuntos de dados de terceiros e combinem com seus dados para obter insights abrangentes. Com a integração nativa com o HAQM SageMaker, os clientes podem permanecer em seu data warehouse e criar, treinar e criar modelos de machine learning em SQL. O HAQM Redshift atende a todas as suas necessidades de análise de SQL com performance de preço até 5 vezes melhor do que outros data warehouses na nuvem.
Quais são as opções de implantação do HAQM Redshift?
O HAQM Redshift é um serviço totalmente gerenciado e oferece opções provisionadas e sem servidor, tornando mais eficiente para você executar e escalar análises sem precisar gerenciar seu data warehouse. Você pode criar um novo endpoint do HAQM Redshift Serverless para provisionar automaticamente o data warehouse em segundos ou pode escolher a opção provisionada para workloads previsíveis.
Como começo a usar o HAQM Redshift?
Com apenas algumas etapas no Console de Gerenciamento da AWS, você pode começar a consultar dados. Você pode aproveitar os conjuntos de dados de amostra pré-carregados, incluindo conjuntos de dados de referência TPC-H, TPC-DS e outras consultas de amostra para iniciar a análise imediatamente. Para começar a usar o HAQM Redshift Serverless, escolha “Experimentar o HAQM Redshift Serverless” e comece a consultar os dados. Comece aqui.
Como a performance do HAQM Redshift se compara à de outros data warehouses?
Os resultados do benchmark TPC-DS mostram que o HAQM Redshift oferece o melhor performance de preço pronto para uso, mesmo para um conjunto de dados comparativamente pequeno de 3 TB. O HAQM Redshift oferece performance de preço até 5x melhor do que outros data warehouses na nuvem. Isso significa que você pode se beneficiar da performance de preço líder do HAQM Redshift desde o início, sem ajuste manual. Com base em nossa telemetria de frota de performance, também sabemos que a maioria das workloads são workloads de consulta curta (workloads executadas em menos de 1 segundo). Para essas workloads, os benchmarks mais recentes demonstram que o HAQM Redshift oferece performance de preço até 7 vezes melhor em workloads de alta simultaneidade e baixa latência do que outros data warehouses na nuvem. Saiba mais aqui.
Posso obter ajuda para saber mais e fazer a integração com o HAQM Redshift?
Sim, os especialistas do HAQM Redshift estão disponíveis para responder perguntas e fornecer suporte. Entre em contato conosco e você receberá nossa resposta em um dia útil para discutir como a AWS pode ajudar sua organização.
O que é armazenamento gerenciado do HAQM Redshift?
O armazenamento gerenciado do HAQM Redshift está disponível com tipos de nó RA3 e sem servidor e permite escalar e pagar por computação e armazenamento, de forma independente, para que você possa dimensionar seu cluster com base apenas nas necessidades de computação. Ele usa automaticamente o armazenamento local baseado em SSD de alta performance como cache de camada 1 e aproveita otimizações como temperatura do bloco de dados, idade do bloco de dados e padrões de workload para oferecer alta performance ao escalar o armazenamento automaticamente no HAQM S3, quando necessário, sem a necessidade de ação.
Como uso o armazenamento gerenciado do HAQM Redshift?
Se você já estiver usando HAQM Redshift Dense Storage ou nós Dense Compute, pode usar Elastic Resize para atualizar os clusters existentes para a nova instância de computação RA3. O HAQM Redshift Serverless e os clusters que usam a instância RA3 usam automaticamente o armazenamento gerenciado pelo Redshift para armazenar dados. Nenhuma outra ação além do uso de instâncias do HAQM Redshift Serverless ou RA3 é necessária para usar esse recurso.
Como posso executar consultas do Redshift para os dados armazenados no AWS Data Lake?
O HAQM Redshift Spectrum é um recurso do HAQM Redshift que permite executar consultas em seu data lake no HAQM S3 sem a necessidade de carregamento de dados ou ETL. Quando você emite uma consulta SQL, ela é enviada para o endpoint do HAQM Redshift, que cria e otimiza um plano de consulta. O HAQM Redshift determina quais dados são locais e quais estão no HAQM S3, gera um plano para minimizar a quantidade de dados do S3 que deve ser lido e solicita que os trabalhadores do HAQM Redshift Spectrum de um pool de recursos compartilhados leiam e processem dados do HAQM S3.
Quando devo considerar o uso de instâncias RA3?
Considere a escolha de tipos de nós RA3 nestes casos:
- Você precisa de flexibilidade para escalar e pagar por computação separada do armazenamento.
- Você consulta uma fração de seus dados totais.
- Seu volume de dados está crescendo rapidamente ou há a expectativa de que cresça rapidamente.
- Você deseja flexibilidade para dimensionar o cluster com base apenas em suas necessidades de performance.
Conforme a escala de dados continua a crescer, alcançando petabytes, a quantidade de dados que você ingere no data warehouse do HAQM Redshift também cresce. Talvez você esteja procurando maneiras de analisar de forma econômica todos os seus dados.
Com as novas instâncias RA3 do HAQM Redshift com armazenamento gerenciado, você pode escolher o número de nós com base em seus requisitos de performance e pagar apenas pelo armazenamento gerenciado que usar. Isso proporciona flexibilidade para dimensionar seu cluster RA3 com base na quantidade de dados que você processa diariamente, sem aumentar os custos de armazenamento. Construídas no AWS Nitro System, as instâncias RA3 com armazenamento gerenciado usam SSDs de alta performance para seus dados ativos e o HAQM S3 para seus dados inativos, proporcionando facilidade de uso, armazenamento com bom custo-benefício e desempenho de consulta rápido.
Qual atributo eu posso usar para análise baseada em localização?
O HAQM Redshift espacial oferece análises baseadas em localização para insights valiosos de seus dados. Ele integra perfeitamente dados espaciais e de negócios para fornecer análises para a tomada de decisões. O HAQM Redshift iniciou a compatibilidade com o processamento de dados espaciais nativos em novembro de 2019, com um tipo de dado polimórfico GEOMETRY e várias funções espaciais SQL importantes. Agora oferecemos compatibilidade com tipo de dado GEOGRAPHY, e nossa biblioteca de funções espaciais SQL cresceu para 80. Oferecemos suporte a todos os tipos e padrões comuns de dados espaciais, incluindo Shapefiles, GeoJSON, WKT, WKB, eWKT e eWKB. Para saber mais, acesse a página de documentação no Tutorial espacial do HAQM Redshift.
Como o suporte para SQL do Athena se compara ao Redshift e como faço para escolher entre os dois serviços?
O HAQM Athena e o HAQM Redshift Serverless atendem a diferentes necessidades e casos de uso, mesmo que ambos os serviços sejam sem servidor e permitam usuários de SQL.
Com sua arquitetura Massively Parallel Processing (MPP) que separa recursos de otimização automática de armazenamento e computação e machine learning, um data warehouse como o HAQM Redshift, seja sem servidor ou provisionado, é uma ótima opção para clientes que precisam da melhor performance de preço em qualquer escala para workloads complexas de BI e análise. Os clientes podem usar o HAQM Redshift como um componente central de sua arquitetura de dados com integrações profundas disponíveis para acessar dados locais ou ingerir ou mover dados facilmente para o armazém para análises de alta performance, por meio de métodos sem código e sem código. Os clientes podem acessar dados armazenados no HAQM S3, bancos de dados operacionais como Aurora e HAQM RDS, data warehouses de terceiros por meio da integração com o AWS Data Exchange e combinar com dados armazenados no data warehouse do HAQM Redshift para análises. Eles podem iniciar o armazenamento de dados com facilidade e conduzir o machine learning com base em todos esses dados.
O HAQM Athena é adequado para análise interativa e exploração de dados em seu data lake ou em qualquer fonte de dados por meio de uma framework de conectores extensível (inclui mais de 30 conectores prontos para uso para aplicativos e sistemas de análise on-premises ou em outros sistemas de análise na nuvem) sem se preocupar com a ingestão ou o processamento de dados. O HAQM Athena é baseado em mecanismos e frameworks de código aberto, como Spark, Presto e Apache Iceberg, oferecendo aos clientes a flexibilidade de usar Python ou SQL ou trabalhar em formatos de dados abertos. Se os clientes quiserem fazer análises interativas usando frameworks de código aberto e formatos de dados, o HAQM Athena é um ótimo lugar para começar.
A flexibilidade de tamanho se aplica ao nó reservado do Redshift?
Não, as instâncias reservadas do Redshift não são flexíveis; elas só se aplicam ao tipo de nó exato que você reserva.
SQL analytics do HAQM SageMaker
Abrir tudoQuais são os benefícios de usar o Redshift no SageMaker para SQL analytics?
O SageMaker simplifica o SQL analytics ao oferecer uma plataforma abrangente e intuitiva que conecta diversas fontes de dados e otimiza o processo de exploração de dados. Ao usar uma interface flexível no estilo de caderno, você tem acesso a dados do HAQM Simple Storage Service (HAQM S3), do HAQM Redshift e de outras fontes de dados, pode escrever e executar consultas em diferentes mecanismos e criar visualizações diretamente na ferramenta. A plataforma gerencia automaticamente os metadados dos seus dados, facilitando a compreensão e a descoberta de informações. Por meio de uma integração sem complicações com outros serviços da AWS, a plataforma permite transcender a análise SQL tradicional, convertendo seus dados em insights acionáveis com o mínimo de complexidade técnica.
Devo migrar meus dados do HAQM S3 ou do data warehouse existente do HAQM Redshift para usar o SageMaker para SQL analytics?
Não. Você não precisa migrar os dados para usar o SageMaker para SQL analytics. É possível realizar a descoberta e a consulta de dados diretamente de diversas fontes, incluindo o HAQM S3 (Catálogo de Dados do AWS Glue e buckets de tabela do HAQM S3), o HAQM Redshift (com tecnologia sem servidor e provisionado) e 13 fontes de dados federadas adicionais compatíveis com fluxos de trabalho de engenharia SQL. O HAQM SageMaker Lakehouse se conecta sem complicações aos seus dados atuais, para que você possa se concentrar em gerar insights em vez de dedicar tempo com a movimentação de informações. Em apenas algumas etapas rápidas, você poderá explorar seus dados, executar consultas e descobrir informações de negócios valiosas sem causar complicações técnicas.
De que maneira é possível carregar dados e começar a usar o SageMaker para realizar SQL analytics?
Para começar a usar, o SageMaker fornece duas maneiras de trazer seus dados para a plataforma para o SQL analytics. Se você armazenar suas informações no HAQM S3, o SQL do SageMaker permitirá que você execute consultas diretamente nesses dados com o data lake. Como alternativa, é possível fazer o upload dos dados de carregamento em seu data warehouse ao executar comandos COPY. Se você tiver dados locais em sua área de trabalho, o SageMaker permitirá que você faça upload dos seus arquivos de dados diretamente do seu próprio computador ao arrastar e soltar arquivos de dados na plataforma do SageMaker. Além disso, é possível usar a integração ETL zero para trazer dados do seu data warehouse operacional. Todo o processo é projetado para remover barreiras técnicas, permitindo que você se concentre em descobrir insights em vez de lutar com processos complexos de carregamento de dados.
Como funciona a experiência com os livros de consulta do SageMaker?
O HAQM SageMaker Unified Studio (versão prévia) disponibiliza uma interface no estilo de caderno, avançada e fácil de usar, para SQL analytics completas. É possível gravar e executar código SQL em células distintas, criar gráficos e visualizações, além de explorar dados unificados de diversas fontes, como o HAQM S3, o HAQM Redshift e outras fontes federadas por meio do SageMaker Lakehouse. Além disso, a plataforma fornece recursos úteis, como o preenchimento automático e a validação de sintaxe, para apoiar o processo de desenvolvimento de consultas SQL. Você também pode usar a funcionalidade de IA generativa com o SQL generativo do HAQM Q, que oferece recomendações de código SQL usando linguagem natural. O SageMaker foi desenvolvido para facilitar o SQL analytics, tornando-o mais intuitivo, flexível e acessível a todos os usuários de dados.
De que maneira é possível compartilhar minhas consultas SQL ou modelos de dados no SageMaker?
O HAQM SageMaker Unified Studio (versão prévia) fornece “projetos”, que são um ambiente de trabalho digital colaborativo que ajuda as equipes a organizar e gerenciar seu trabalho de data analytics. Considere isso como uma pasta compartilhada na qual você pode armazenar consultas SQL, modelos de dados, código e outros recursos em um único local seguro. Ao criar um Projeto, você estabelece um ambiente centralizado no qual membros da equipe podem ser convidados, receber permissões de acesso específicas e trabalhar juntos de forma contínua. Nesse espaço, é possível distribuir com facilidade os Querybooks, que armazenam suas consultas e modelos de dados, conceder acesso a fontes de dados como o HAQM S3 e o Redshift, e fornecer recursos computacionais compartilhados. A plataforma fornece suporte para o controle de versão por meio da integração com o Git, permitindo que a equipe registre as alterações, colabore no desenvolvimento do código e mantenha um histórico detalhado do trabalho de SQL analytics. Essa abordagem garante que todos os membros da equipe tenham a capacidade de visualizar, editar e executar consultas, ao mesmo tempo em que preserva a segurança e a consistência nas workloads de SQL analytics.
Qual é o modelo de preços para SQL analytics no SageMaker?
Não há custos adicionais para usar o editor SQL no SageMaker. Você paga somente pelo uso dos mecanismos de computação disponíveis, como o HAQM Athena e o HAQM Redshift.
Qual é o SLA para o SQL analytics no HAQM SageMaker?
Os Acordos Serviço (SLAs) para o SQL analytics no HAQM SageMaker estão diretamente relacionados aos SLAs dos mecanismos SQL subjacentes: HAQM Redshift e HAQM Athena. Os clientes podem encontrar informações detalhadas sobre o compromisso do serviço nas respectivas páginas de acordos de serviço do HAQM Redshift e do HAQM Athena.
Tecnologia sem servidor
Abrir tudoO que é HAQM Redshift sem servidor?
O HAQM Redshift Serverless é uma opção sem servidor do HAQM Redshift que torna mais eficiente executar e escalar análises em segundos, sem a necessidade de configurar e gerenciar a infraestrutura de data warehouse. Com o Redshift Serverless, qualquer usuário, incluindo analistas de dados, desenvolvedores, profissionais de negócios e cientistas de dados, pode obter insights de dados simplesmente carregando e consultando dados no data warehouse.
Como começo a usar o HAQM Redshift sem servidor
Com apenas algumas etapas no Console de Gerenciamento da AWS, você pode optar por “configurar o HAQM Redshift Serverless” e começar a consultar dados. Você pode tirar proveito de conjuntos de dados de amostra pré-carregados, como dados meteorológicos, dados de censo e conjuntos de dados de referência, junto de consultas de amostra, para iniciar a análise imediatamente. Você pode criar bancos de dados, esquemas e tabelas, carregar seus próprios dados do HAQM S3, acessar dados em compartilhamentos do HAQM Redshift ou restaurar um snapshot de cluster provisionado do Redshift. Você também pode consultar dados diretamente em formatos abertos (como Parquet ou ORC) no data lake do HAQM S3 ou consultar dados em bancos de dados operacionais, como HAQM Aurora, HAQM RDS PostgreSQL e MySQL. Consulte o Guia de introdução.
Quais são os benefícios de usar o HAQM Redshift sem servidor?
Se você não tem experiência em gerenciamento de data warehouse, não precisa se preocupar em instalar, configurar, gerenciar clusters ou ajustar o warehouse. Você pode se concentrar em derivar insights significativos dos dados ou entregar os principais resultados de negócios por meio de dados. Você paga apenas pelo que usa, mantendo os custos gerenciáveis. Você continua a se beneficiar de toda a performance de alto nível do HAQM Redshift, recursos avançados do SQL, integração perfeita com data lakes e data warehouses operacionais e recursos integrados de análise preditiva e compartilhamento de dados. Se você precisa de um controle detalhado de seu data warehouse, pode provisionar clusters do Redshift.
Como o HAQM Redshift sem servidor funciona com outros serviços da AWS?
Você pode continuar a usar toda a funcionalidade analítica avançada do HAQM Redshift, como junções complexas, consultas diretas a dados no data lake e bancos de dados operacionais do HAQM S3, visualizações materializadas, procedimentos armazenados, suporte a dados semiestruturados e ML, assim como alta performance em escala. Todos os serviços relacionados com os quais o HAQM Redshift se integra (como HAQM Kinesis, AWS Lambda, HAQM QuickSight, HAQM SageMaker, HAQM EMR, AWS Lake Formation e AWS Glue) continuam a funcionar com o HAQM Redshift Serverless.
Com quais casos de uso posso lidar com o HAQM Redshift sem servidor?
Você pode continuar executando todos os casos de uso de análise. Com um fluxo de trabalho de introdução simples, dimensionamento automático e a capacidade de pagar pelo uso, a experiência sem servidor do HAQM Redshift agora torna ainda mais eficiente e econômica a execução de ambientes de desenvolvimento e teste que devem ser iniciados rapidamente, análises de negócios ad hoc, workloads com necessidades de computação variadas e imprevisíveis e workloads intermitentes ou esporádicas.
Ingestão e carregamento de dados
Abrir tudoComo posso carregar dados no data warehouse do HAQM Redshift?
Você pode carregar dados no HAQM Redshift de diversas fontes de dados, incluindo do HAQM S3, HAQM RDS, HAQM DynamoDB, HAQM EMR, AWS Glue, AWS Data Pipeline, bem como de qualquer host habilitado para SSH no HAQM EC2 ou on-premises. O HAQM Redshift tenta carregar os dados em paralelo em cada nó computacional para maximizar a taxa de consumo de dados em seu cluster de data warehouse. Os clientes podem se conectar ao HAQM Redshift usando ODBC ou JDBC e emitir comandos “insert” do SQL para inserir os dados. Observe que isso é mais lento do que usar o S3 ou o DynamoDB, pois esses métodos carregam dados em paralelo para cada nó de computação, enquanto as instruções de inserção SQL são carregadas por meio do único nó líder. Para obter mais detalhes sobre como carregar dados no HAQM Redshift, consulte nosso Guia de conceitos básicos.
Qual é a diferença entre a cópia automática do Redshift e o comando de cópia?
A cópia automática do Redshift oferece a capacidade de automatizar instruções de cópia rastreando pastas do HAQM S3 e ingerindo novos arquivos sem intervenção do cliente. Sem a cópia automática, uma instrução de cópia inicia imediatamente o processo de ingestão de arquivos existentes. A cópia automática estende o comando de cópia existente e fornece a capacidade de 1/ automatizar o processo de ingestão de arquivos monitorando caminhos específicos do HAQM S3 para novos arquivos, 2/ reutilizar configurações de cópia, reduzindo a necessidade de criar e executar novas instruções de cópia para tarefas repetitivas de ingestão e 3/ manter o controle dos arquivos carregados para evitar a duplicação de dados.
Como começo a usar a cópia automática do Redshift?
Para começar, os clientes devem ter uma pasta do HAQM S3, que pode ser acessada por seu endpoint de cluster/sem servidor do Redshift usando perfis do IAM associados, e criar uma tabela do Redshift para ser usada como destino. Quando um caminho do HAQM S3 e a tabela do Redshift estiverem prontos, os clientes poderão criar um trabalho de cópia usando o comando de cópia. Depois que o trabalho de cópia for criado, o Redshift começará a rastrear o caminho especificado do HAQM S3 nos bastidores e inicia as instruções de cópia definidas pelo usuário para copiar automaticamente novos arquivos na tabela de destino.
Quais são os casos de uso da integração do HAQM Redshift para Apache Spark?
Os principais casos de uso incluem: 1/ Clientes que usam o HAQM EMR e o AWS Glue para executar trabalhos do Apache Spark que acessam e carregam dados no HAQM Redshift como parte dos pipelines de ingestão e transformação de dados (em lote e streaming) 2/ Clientes que usam o HAQM SageMaker para realizar machine learning usando o Apache Spark e devem acessar dados armazenados no HAQM Redshift para engenharia e transformação de recursos. 3/Clientes do HAQM Athena que usam o Apache Spark para realizar análises interativas de dados no HAQM Redshift.
Quais são os benefícios da integração do HAQM Redshift para o Apache Spark?
O Baikal oferece os seguintes benefícios:
- Facilidade de uso para começar e executar aplicações Apache Spark em dados no HAQM Redshift sem precisar se preocupar com as etapas manuais envolvidas na configuração e manutenção de versões não certificadas do Spark
- Conveniência de usar o Apache Spark de vários serviços da AWS, como HAQM EMR, AWS Glue, HAQM Athena e HAQM SageMaker com HAQM Redshift usando uma configuração mínima
- Performance aprimorada ao executar aplicações Apache Spark no HAQM Redshift
Quando devo usar o HAQM Aurora Zero-ETL para o HAQM Redshift em vez da consulta federada?
O HAQM Aurora Zero-ETL para HAQM Redshift permite que os clientes do HAQM Aurora e do HAQM Redshift executem análises e machine learning quase em tempo real em petabytes de dados transacionais, oferecendo uma solução totalmente gerenciada para disponibilizar dados transacionais do HAQM Aurora no HAQM Redshift em poucos segundos depois de serem escritos. Com o HAQM Aurora Zero-ETL para o HAQM Redshift, os clientes simplesmente escolhem as tabelas do HAQM Aurora que contêm os dados que desejam analisar com o HAQM Redshift, e o recurso replica perfeitamente o esquema e os dados no HAQM Redshift. Isso reduz a necessidade de os clientes criarem e gerenciarem canais de dados complexos, para que eles possam se concentrar em melhorar seus aplicativos. Com o HAQM Aurora Zero-ETL para HAQM Redshift, os clientes podem replicar dados de vários clusters de banco de dados do HAQM Aurora na mesma instância do HAQM Redshift para obter insights abrangentes em várias aplicações, ao mesmo tempo em que consolidam seus principais ativos analíticos, obtendo economias de custo significativas e eficiências operacionais. Com o HAQM Aurora Zero-ETL para o HAQM Redshift, os clientes também podem acessar os principais recursos de análise e machine learning do HAQM Redshift, como visualizações materializadas, compartilhamento de dados e acesso federado a vários armazenamentos de dados e data lakes. Isso permite que os clientes combinem análise central e quase em tempo real para obter efetivamente insights sensíveis ao tempo que informam as decisões de negócios. Além disso, os clientes usam o HAQM Aurora para transações e o HAQM Redshift para análises. Portanto, não há recursos de computação compartilhados, gerando uma solução de performance e operacionalmente estável.
Como o HAQM Aurora Zero-ETL com o HAQM Redshift se relaciona e trabalha com outros serviços da AWS?
A Integração ETL zero do HAQM Aurora com o HAQM Redshift oferece integração perfeita entre os dois serviços para análise transacional.
Como funciona a ingestão de streaming?
Os dados de streaming são diferentes das tabelas de banco de dados tradicionais, pois, ao consultar um stream, você captura a evolução de uma relação que varia no tempo. As tabelas, por outro lado, capturam um snapshot pontual dessa relação que varia no tempo. Os clientes do HAQM Redshift estão acostumados a operar em tabelas regulares e realizar o processamento posterior (ou seja, transformações) de dados usando um modelo de lote tradicional, por exemplo, “ELT”. Fornecemos um método para usar Vistas materializadas do Redshift (MVs) para que os clientes possam materializar facilmente uma visão pontual do stream, acumulada até o momento da consulta, o mais rápido possível para dar suporte aos fluxos de trabalho do ELT.
Compartilhamento de dados
Abrir tudoQuais são os casos de uso para compartilhamento de dados?
Os principais casos de uso incluem:
- Um cluster ETL central que compartilha dados com muitos clusters de BI/análise para fornecer isolamento da workload de leitura e capacidade de carga opcional.
- Um provedor de dados que compartilha dados com consumidores externos.
- Compartilhamento de conjuntos de dados comuns, como clientes, produtos em diferentes grupos de negócios e colaboração para ampla análise e ciência de dados.
- Descentralização de um data warehouse para simplificar o gerenciamento.
- Compartilhamento de dados entre ambientes de desenvolvimento, teste e produção.
- Acesso a dados do Redshift de outros serviços analíticos da AWS.
O que são consultas entre bancos de dados no HAQM Redshift?
Com essas consultas, você pode consultar e unir consultas sem problemas a partir de qualquer banco de dados Redshift ao qual tenha acesso, não importando a qual banco de dados está conectado. Isso pode incluir bancos de dados locais no cluster e também conjuntos de dados compartilhados disponíveis em clusters remotos. As consultas entre bancos de dados fornecem flexibilidade para organizar os dados como bancos de dados separados para dar suporte a configurações multlocatárias.
Quem são os principais usuários do AWS Data Exchange?
O AWS Data Exchange torna mais eficiente para os clientes da AWS o intercâmbio seguro e o uso de dados de terceiros na AWS. Analistas de dados, gerentes de produto, gerentes de portfólio, cientistas de dados, quants, técnicos de testes clínicos e desenvolvedores em quase todos os setores gostariam de acessar mais dados para conduzir análises, treinar modelos de ML e tomar decisões orientadas por dados. Mas não há um lugar único para encontrar dados de vários provedores nem consistência em como os provedores entregam dados, provocando uma mistura de mídia física enviada, credenciais de FTP e chamadas de API sob medida. Por outro lado, muitas organizações gostariam de disponibilizar seus dados para fins comerciais ou de pesquisa, mas é muito difícil e caro construir e manter a entrega de dados, direitos e tecnologia de cobrança, o que reduz ainda mais o fornecimento de dados valiosos.
Escalabilidade e simultaneidade
Abrir tudoComo posso escalar o tamanho e a performance do cluster de data warehouse do HAQM Redshift?
O HAQM Redshift Serverless provisiona automaticamente a capacidade do data warehouse e dimensiona de forma inteligente os recursos subjacentes. O HAQM Redshift Serverless ajusta a capacidade em segundos para oferecer consistentemente alta performance e operações simplificadas até mesmo para as workloads mais exigentes e voláteis. Com o recurso de escalabilidade de simultaneidade, você pode oferecer suporte a um número ilimitado de usuários e consultas simultâneos, com uma performance de consulta rápida e consistente. Quando a escalabilidade de simultaneidade é habilitada, o HAQM Redshift adiciona automaticamente capacidade de cluster quando suas experiências de cluster aumentam no enfileiramento de consultas.
Para escalabilidade manual, se você quiser aumentar a performance da consulta ou responder à superutilização da CPU, memória ou E/S, poderá aumentar o número de nós no cluster de data warehouse usando o redimensionamento elástico por meio do Console de gerenciamento da AWS ou da API ModifyCluster. Quando você modifica um cluster de data warehouse, as alterações solicitadas são aplicadas imediatamente. Métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o seu cluster de data warehouse do Redshift estão disponíveis gratuitamente no Console de Gerenciamento da AWS ou nas APIs do HAQM CloudWatch. Também é possível adicionar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do HAQM CloudWatch.
Com o HAQM Redshift Spectrum, é possível executar vários clusters do Redshift acessando os mesmos dados no HAQM S3. Você poderá usar clusters diversos para casos de uso diferentes. Por exemplo, é possível usar um cluster para a geração de relatórios padrão e outro para consultas de ciência de dados. Equipes de marketing podem usar seus próprios clusters diferentes dos clusters de equipes de operações. O Redshift Spectrum distribui automaticamente a execução da consulta para vários operadores do Redshift Spectrum de um grupo de recursos compartilhados para ler e processar dados do HAQM S3, e retornará os resultados para o cluster do Redshift para executar qualquer processamento remanescente.
O cluster de data warehouse continuará disponível durante a escalabilidade?
Depende. Quando você usa o recurso de escalabilidade de simultaneidade, o cluster fica totalmente disponível para leitura e gravação durante a alteração de escala da simultaneidade. Com o redimensionamento elástico, o cluster fica indisponível por quatro a oito minutos do período de redimensionamento. Com a elasticidade de armazenamento do Redshift RA3, o cluster fica totalmente disponível e os dados são movidos automaticamente entre o armazenamento gerenciado e os nós de computação.
O que é o redimensionamento elástico e qual a diferença entre ele e a escalabilidade de simultaneidade?
O Redimensionamento elástico adiciona e remove nós de um único cluster do Redshift em minutos para gerenciar a throughput de consulta. Por exemplo, uma workload de ETL para determinadas horas em um relatório de um dia ou mês pode precisar de recursos adicionais do HAQM Redshift para ser concluída a tempo. A escalabilidade de simultaneidade adiciona recursos de cluster para aumentar a simultaneidade geral da consulta.
Posso acessar diretamente os clusters de escalabilidade de simultaneidade?
Não. A escalabilidade de simultaneidade é um grupo amplamente escalável de recursos do HAQM Redshift ao qual os clientes não têm acesso direto.
Segurança
Abrir tudoComo o HAQM Redshift mantém meus dados seguros?
O HAQM Redshift oferece suporte à segurança líder do setor com gerenciamento de identidade e federação integrados para autenticação única (SSO), autenticação multifator, controle de acesso em nível de coluna, segurança em nível de linha, controle de acesso baseado em funções e HAQM Virtual Private Cloud (HAQM VPC) e redimensionamento mais rápido do cluster. Com o HAQM Redshift, seus dados são criptografados em trânsito e quando ociosos. Todos os recursos de segurança do HAQM Redshift são oferecidos imediatamente, sem custo adicional, para satisfazer os mais exigentes requisitos de segurança, privacidade e conformidade. Você obtém o benefício do suporte da AWS a mais padrões de segurança e certificações de conformidade do que qualquer outro provedor, incluindo ISO 27001, SOC, HIPAA/HITECH e FedRAMP.
O Redshift oferece suporte a controles de acesso granulares?
Sim, o HAQM Redshift oferece suporte para controle de acesso baseado em funções. O controle de acesso em nível de linha permite que você atribua uma ou mais funções a um usuário e atribua permissões de sistema e objeto por função. Você pode usar funções de sistema prontas para uso, como usuário raiz, administrador de banco de dados, operador e administradores de segurança, ou criar suas próprias funções.
O HAQM Redshift oferece suporte ao mascaramento ou à tokenização de dados?
As funções definidas pelo usuário (UDFs) do AWS Lambda permitem usar uma função do AWS Lambda como UDF no HAQM Redshift e chamá-la a partir das consultas SQL do Redshift. Essa funcionalidade permite escrever extensões personalizadas para sua consulta SQL para obter uma integração maior com outros serviços ou produtos de terceiros. Você pode escrever Lambda UDFs para permitir a tokenização externa, o mascaramento dos dados, a identificação ou não dos dados integrando com revendedores como Protegrity e proteger ou não dados sigilosos com base nas permissões de um usuário e grupos na hora da consulta.
Com suporte para mascaramento dinâmico de dados, os clientes podem proteger facilmente seus dados confidenciais e controlar o acesso granular gerenciando as políticas de mascaramento de dados. Suponha que você tenha aplicações com vários usuários e objetos com dados confidenciais que não podem ser expostos a todos os usuários. Você tem requisitos para fornecer um nível de segurança granular diferente que você deseja oferecer a diferentes grupos de usuários. O Mascaramento dinâmico de dados do Redshift é configurável para permitir que os clientes definam valores de dados mascarados consistentes, que preservam o formato e irreversíveis. Quando o recurso estiver em GA, você começará a usá-lo imediatamente. Os administradores de segurança podem criar e aplicar políticas com apenas alguns comandos.
O HAQM Redshift é compatível com o logon único?
Sim. Os clientes que desejam usar seus provedores de identidade corporativa, como o Microsoft Azure Active Directory, os Serviços de Federação do Active Directory, Okta, Ping Federate ou outros provedores de identidade compatíveis com SAML, podem configurar o HAQM Redshift para fornecer logon único. É possível fazer login no cluster do HAQM Redshift com identidades do Microsoft Azure Active Directory (AD). Isso permite que você possa entrar no Redshift sem duplicar as identidades do Azure Active Directory no Redshift.
O HAQM Redshift oferece suporte à autenticação multifator (MFA)?
Sim. Você pode usar a autenticação multifator (MFA) para obter segurança adicional ao se autenticar no cluster do HAQM Redshift.
Disponibilidade e resiliência
Abrir tudoO que acontece com a disponibilidade do cluster de data warehouse e a durabilidade dos meus dados se houver falha no nó individual?
O HAQM Redshift vai automaticamente detectar e substituir um nó com falha em seu cluster de data warehouse. Em clusters Dense Compute (DC) e Dense Storage (DS2), os dados são armazenados nos nós de computação para garantir alta durabilidade dos dados. Quando um nó é substituído, os dados são atualizados a partir da cópia espelhada no outro nó. Os clusters do RA3 e do Redshift sem servidor não são afetados da mesma forma, uma vez que os dados são armazenados no HAQM S3 e a unidade local é usada apenas como cache de dados. O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O HAQM Redshift disponibiliza seu nó de substituição imediatamente e carrega primeiro os dados acessados com mais frequência do HAQM S3 para permitir que você retome a consulta dos seus dados o mais rápido possível. Clusters de um único nó não oferecem suporte à replicação de dados. No caso de uma falha de unidade, você deve restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.
O que acontece com a disponibilidade do meu cluster do data warehouse e a durabilidade dos dados se a zona de disponibilidade (AZ) desse cluster tiver uma interrupção?
Se seu data warehouse HAQM Redshift for uma implantação Single-AZ e a zona de disponibilidade do cluster ficar indisponível, o HAQM Redshift moverá automaticamente seu cluster para outra zona de disponibilidade (AZ) da AWS sem perda de dados ou alterações na aplicação. Para ativar isso, você deve habilitar a capacidade de realocação nas definições de configuração do cluster.
Por que devo usar uma implantação Multi-AZ do Redshift?
Diferentemente das implantações Single-AZ, os clientes agora podem melhorar a disponibilidade do Redshift executando seu data warehouse em uma implantação Multi-AZ. Uma implantação multi-AZ permite que você execute seu data warehouse em várias zonas de disponibilidade (AZ) da AWS simultaneamente e continue operando em cenários de falha imprevistos. Nenhuma alteração na aplicação é necessária para manter a continuidade dos negócios, pois a implantação Multi-AZ é gerenciada como um único data warehouse com um endpoint. As implantações Multi-AZ reduzem o tempo de recuperação ao garantir a capacidade de recuperação automática e são destinadas a clientes com aplicações de análise essenciais para os negócios que exigem os mais altos níveis de disponibilidade e resiliência a falhas de AZ. Isso também permite que os clientes implementem uma solução mais compatível com as recomendações do Pilar de Confiabilidade do AWS Well-Architected Framework. Para saber mais sobre o HAQM Redshift Multi-AZ, consulte aqui.
O que é RPO e RTO? Quais RPO e RTO são compatíveis com uma implantação Multi-AZ?
RPO é um acrônimo para Objetivo do ponto de recuperação e é um termo para descrever a garantia de atualidade dos dados em caso de falhas. RPO é o tempo máximo aceitável desde o último ponto de recuperação de dados. Isso determina o que é considerado uma perda aceitável de dados entre o último ponto de recuperação e a interrupção do serviço. O Redshift Multi-AZ oferece suporte para RPO = 0, o que significa que os dados estão sempre em dia e atualizados em caso de falha. Nossos testes de pré-lançamento constataram que o RTO com implantações Multi-AZ do HAQM Redshift é inferior a 60 segundos ou menos no caso improvável de uma falha de AZ.
Como o Redshift Multi-AZ se compara ao atributo existente de realocação do Redshift?
A realocação do Redshift é ativado por padrão em todos os novos clusters RA3 e endpoints sem servidor, o que permite que um data warehouse seja reiniciado em outra AZ no caso de uma interrupção em grande escala, sem perda de dados ou custo adicional. Embora o uso da Realocação seja gratuito, as limitações são que é a melhor abordagem, sujeita à recuperação da disponibilidade de recursos no AZ, e o objetivo de tempo de recuperação (RTO) pode ser afetado por outros problemas relacionados à inicialização de um novo cluster. Isso pode resultar em tempos de recuperação entre 10 e 60 minutos. O Redshift Multi-AZ oferece suporte a requisitos de alta disponibilidade, fornecendo um RTO medido em dezenas de segundos e oferece operação contínua garantida, pois não estará sujeito a limitações de capacidade ou outros possíveis problemas ao criar um novo cluster.
Consultas e análises
Abrir tudoO HAQM Redshift e o Redshift Spectrum são compatíveis com meu pacote de software de BI e minhas ferramentas de ETL preferidos?
Sim, o HAQM Redshift utiliza o SQL padrão do setor e é acessado por drivers JDBC e ODBC padrão. Os drivers JDBC e ODBC personalizados para o HAQM Redshift estão disponíveis para download na guia Connect Client do console do Redshift. Validamos integrações com fornecedores de BI e ETL conhecidos. Vários deles oferecem testes gratuitos para ajudar você a começar a carregar e analisar seus dados. Você também pode acessar o AWS Marketplace para implantar e configurar em poucos minutos as soluções criadas para trabalhar com o HAQM Redshift.
O HAQM Redshift Spectrum é compatível com todas as ferramentas de cliente do HAQM Redshift. As ferramentas de cliente podem continuar a estabelecer conexão com o endpoint do cluster do HAQM Redshift usando as conexões ODBC ou JDBC. Não é exigida nenhuma alteração.
Você usa exatamente a mesma sintaxe de consulta e tem os mesmos recursos de consulta para acessar tabelas no Redshift Spectrum disponíveis para tabelas no armazenamento local de um cluster do Redshift. As tabelas externas são mencionadas usando o nome do esquema definido no comando CREATE EXTERNAL SCHEMA em que foram registradas.
Com quais formatos de dados e compactação o HAQM Redshift Spectrum é compatível?
No momento, o HAQM Redshift Spectrum é compatível com diversos formatos de dados de código aberto, inclusive Avro, CSV, Grok, HAQM Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text e TSV.<br>Atualmente, o HAQM Redshift Spectrum oferece suporte à compactação Gzip e Snappy.
O que acontece se uma tabela no armazenamento local tiver o mesmo nome de uma tabela externa?
Assim como ocorre com tabelas locais, você pode usar o nome do schema para escolher exatamente aquele que deseja ao usar schema_name.table_name na sua consulta.
Eu uso um Hive Metastore para armazenar metadados sobre um data lake do S3. Posso usar o Redshift Spectrum?
Sim. O comando CREATE EXTERNAL SCHEMA aceita o Hive Metastore. No momento, não aceitamos o DDL no Hive Metastore.
Como posso obter uma lista das tabelas externas de banco de dados em um cluster?
Você pode consultar a tabela do sistema SVV_EXTERNAL_TABLES para obter essas informações.
O Redshift suporta a capacidade de usar machine learning com o SQL?
Sim, o recurso HAQM Redshift ML facilita que os usuários do SQL criem, treinem e implantem modelos ML (machine learning) usando comandos do SQL conhecidos. O HAQM Redshift ML permite utilizar seus dados no HAQM Redshift com o HAQM SageMaker, um serviço de ML totalmente gerenciado. O HAQM Redshift é competível com aprendizado não supervisionado (K-Means) e aprendizado supervisionado (Autopilot, XGBoost, algoritmos MLP). Você também pode usar os serviços de IA para idiomas da AWS para traduzir, ocultar e analisar campos de texto em consultas SQL com funções pré-criadas do Lambda UDF – consulte a postagem do blog.
O HAQM Redshift fornece uma API para consultar dados?
O HAQM Redshift fornece uma API Data que permite acessar dados no HAQM Redshift sem complicações com todos os tipos de aplicações baseadas em serviços da Web nativos de nuvem, conteinerizadas e sem servidor, assim como aplicações baseadas em eventos. A API Data simplifica o acesso ao HAQM Redshift porque não é necessário configurar drivers e gerenciar conexões de banco de dados. Pelo contrário, você precisa executar comandos SQL para um cluster HAQM Redshift simplesmente chamando um endpoint da API protegido fornecido pela Data API. A Data API cuida do gerenciamento das conexões do banco de dados e do buffer dos dados. A Data API é assíncrona para que você possa recuperar seus resultados mais tarde. Os resultados da consulta são armazenados por 24 horas.
Quais tipos de credenciais posso usar com a API Data do HAQM Redshift?
A Data API suporta as credenciais IAM e o uso de uma chave secreta do AWS Secrets Manager. A Data API federa as credenciais AWS Identity and Access Management (IAM) para que você possa usar provedores como Okta ou Azure Active Directory, ou as credenciais do banco de dados armazenadas no Secrets Manager sem passar as credenciais do banco de dados nas chamadas da API.
Posso usar a API Data do HAQM Redshift na AWS CLI?
Sim, você pode usar a Data API da AWS CLI usando a opção da linha de comando aws redshift-data.
A API Data do Redshift é integrada com outros serviços da AWS?
Você pode usar a Data API de outros serviços, como AWS Lambda, AWS Cloud9, AWS AppSync e HAQM EventBridge.
Tenho que pagar separado para usar a Data API do HAQM Redshift?
Não há nenhuma cobrança separada para usar a API Data.
Integrações ETL zero
Abrir tudoO que é o ETL zero?
O ETL zero é um conjunto de integrações totalmente gerenciadas pela AWS que remove ou minimiza a necessidade de desenvolver pipelines de dados de extração, transformação e carregamento (ETL). O ETL zero disponibiliza os dados no SageMaker Lakehouse e no HAQM Redshift usando diversas fontes operacionais, fontes transacionais e aplicações empresariais. O ETL é o processo de combinar, tratar e normalizar dados de fontes diversas, tornando-os prontos para workloads de analytics, IA, e ML. Os processos de ETL tradicionais são demorados e complexos de desenvolver, manter e escalar. Em vez disso, as integrações ETL zero facilitam o movimento de dados ponto a ponto, sem a necessidade de criar e operar pipelines de dados de ETL.
Acesse O que é ETL zero? para saber mais informações.
Quais desafios de ETL a integração ETL zero resolve?
As integrações ETL zero resolvem muitos dos desafios existentes de movimentação de dados nos processos tradicionais de ETL, incluindo:
- Aumento da complexidade do sistema devido a regras complexas de mapeamento de dados, tratamento de erros e requisitos de segurança;
- Custos adicionais provenientes do aumento dos volumes de dados, atualizações de infraestrutura e manutenção;
- Atraso na obtenção de analytics, IA e ML devido ao desenvolvimento e implantação de código personalizado, ocasionando perda de oportunidades para casos de uso em tempo real.
Quais são os benefícios de ETL zero?
- Agilidade aprimorada: a integração ETL zero simplifica a arquitetura de dados e reduz os esforços de engenharia de dados. Isso permite a inclusão de novas fontes de dados sem a necessidade de reprocessar grandes quantidades de dados. A flexibilidade proporciona maior agilidade, favorecendo a tomada de decisões baseadas em dados e a inovação acelerada.
- Eficiência de custos: a integração ETL zero usa tecnologias de integração de dados escaláveis e nativas da nuvem, permitindo que as empresas ajustem os custos conforme o uso real e as necessidades de processamento de dados. As organizações reduzem os custos de infraestrutura, os esforços de desenvolvimento e as despesas gerais de manutenção.
- Rapidez na obtenção de insights: os processos tradicionais de ETL geralmente envolvem atualizações periódicas em lotes, o que resulta em atraso na disponibilidade dos dados. As integrações ETL zero, por outro lado, fornecem acesso a dados praticamente em tempo real, o que ajuda a fornecer dados mais atualizados para analytics, IA/ML e relatórios. Você obtém insights mais precisos e oportunos para casos de uso como painéis em tempo real, experiência de jogo otimizada, monitoramento de qualidade de dados e análise de comportamento do cliente. As organizações podem fazer previsões orientadas por dados com mais confiança, melhorar as experiências do cliente e promover insights orientados por dados em toda a empresa.
Neste momento, quais integrações ETL zero estão disponíveis na AWS?
Durante o evento re:Invent 2024, anunciaremos as seguintes quatro integrações ETL zero:
- Suporte do HAQM SageMaker Lakehouse e do HAQM Redshift para integrações ETL zero usando aplicações
- Integração ETL zero do HAQM DynamoDB com o HAQM SageMaker Lakehouse
- Integração ETL zero do HAQM OpenSearch Service com o HAQM CloudWatch Logs
- Integração ETL zero do HAQM OpenSearch Service com o HAQM Security Lake
Desde o lançamento das integrações ETL zero, já introduzimos sete integrações:
- Integração ETL zero do HAQM Aurora MySQL com o HAQM Redshift
- Integração ETL zero do HAQM Aurora PostgreSQL com o HAQM Redshift
- Integração ETL zero do HAQM Relational Database Service (HAQM RDS) para MySQL com o HAQM Redshift
- Integração ETL zero do HAQM DynamoDB com o HAQM OpenSearch Service
- Integração ETL zero do HAQM DocumentDB com o HAQM OpenSearch Service
- Integração ETL zero do HAQM OpenSearch Service com o HAQM Simple Storage Service (HAQM S3)
- Integração ETL zero do HAQM DynamoDB com o HAQM Redshift
Qual é o modelo de preços da integração ETL zero?
Para obter mais informações sobre os preços, acesse as páginas de preços do HAQM Redshift, do AWS Glue e do SageMaker Lakehouse.
Em qual local é possível encontrar mais informações sobre a integração ETL zero e esse novo recurso?
Para saber mais informações sobre a integração ETL zero, consulte O que é ETL zero?
Como as mudanças de esquema são tratadas com a integração ETL zero?
Estes são alguns pontos-chave sobre como as mudanças de esquema são tratadas:
- As instruções DDL, como CREATE TABLE, ALTER TABLE, DROP TABLE e semelhantes, são replicadas automaticamente do Aurora para o HAQM Redshift.
- A integração faz as verificações e ajustes necessários nas tabelas do HAQM Redshift para alterações de esquema replicadas. Por exemplo, adicionar uma coluna no Aurora adicionará a coluna no HAQM Redshift.
- A replicação e as alterações de esquema acontecem automaticamente em tempo real, com um atraso mínimo entre os bancos de dados de origem e de destino.
- A consistência do esquema é mantida mesmo quando as alterações de DML ocorrem paralelamente às alterações de DDL.
Como é possível executar transformações nos meus dados usando a integração ETL zero?
Você pode criar visões materializadas no banco de dados local do HAQM Redshift para transformar dados replicados por meio da integração ETL zero. Conecte-se ao banco de dados local e use consultas entre bancos de dados para acessar os bancos de dados de destino. Você pode optar por usar nomes de objetos totalmente qualificados com notação de três partes (destination-database-name.schema-name.table-name) ou criar um esquema externo que referencia o par banco de dados e esquema de destino e usar notação de duas partes (external-schema-name.table-name).
Backup e restauração
Abrir tudoComo o HAQM Redshift faz o backup dos meus dados? Como faço para restaurar um cluster de um backup?
Clusters do RA3 do HAQM Redshift e do HAQM Redshift Serverless usam Redshift Managed Storage, que sempre tem a cópia mais recente dos dados disponíveis. Os clusters DS2 e DC2 espelham os dados no cluster para garantir que a cópia mais recente esteja disponível em caso de falha. Os backups são criados automaticamente em todos os tipos de cluster do Redshift e retidos por 24 horas. Na tecnologia sem servidor pontos de recuperação são fornecidos para as últimas 24 horas
Você também pode criar seus próprios backups, que podem ser retidos indefinidamente. Esses backups podem ser criados a qualquer momento, e os backups automatizados do HAQM Redshift ou pontos de recuperação do HAQM Redshift Serverless podem ser convertidos em um backup do usuário para uma retenção mais longa.
O HAQM Redshift também pode replicar de forma assíncrona os snapshots ou pontos de recuperação para o HAQM S3 em outra região para recuperação de desastres.
Em um cluster DS2 ou DC2, o armazenamento de backup gratuito é limitado ao tamanho total de armazenamento nos nós no cluster de data warehouse e se aplica apenas aos clusters de data warehouse ativos.
Por exemplo, se você tiver um armazenamento de data warehouse total de 8 TB, forneceremos no máximo 8 TB de armazenamento de backup sem custos adicionais. Se você quiser ampliar o período de retenção do backup para mais de um dia, poderá fazer isso usando o Console de Gerenciamento da AWS ou as APIs do HAQM Redshift. Para obter mais informações sobre snapshots automatizados, consulte o Guia de gerenciamento do HAQM Redshift.
O HAQM Redshift somente faz backup de dados alterados. Assim, a maioria dos snapshots usa apenas uma pequena quantidade do armazenamento de backup gratuito. Quando você precisa restaurar um backup, pode acessar todos os backups automatizados dentro da janela de retenção de backups. Após escolher um backup para a restauração, provisionaremos um novo cluster de data warehouse e restauraremos os dados nesse novo cluster.
Como eu gerencio a retenção de backups e snapshots automatizados?
Você pode usar o Console de Gerenciamento da AWS ou a API ModifyCluster para gerenciar o período de retenção que os backups automatizados são retidos, modificando o parâmetro RetentionPeriod. Se quiser desativar completamente os backups automatizados, você poderá configurar o período de retenção para 0 (não recomendado).
O que acontece com os backups se eu excluir o cluster de data warehouse?
Quando exclui um cluster de data warehouse, você pode especificar se um snapshot final será criado no momento da exclusão. Isso permite restaurar posteriormente o cluster de data warehouse excluído. Todos os snapshots manuais do cluster de data warehouse criados anteriormente serão retidos e cobrados de acordo com as taxas padrão do HAQM S3, a menos que você opte por excluí-los.
Monitoramento e manutenção
Abrir tudoComo posso monitorar a performance do meu cluster do data warehouse do HAQM Redshift?
Métricas da utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o cluster do data warehouse do HAQM Redshift estão disponíveis gratuitamente no Console de Gerenciamento da AWS ou nas APIs do HAQM CloudWatch. Você também pode adicionar métricas adicionais definidas pelo usuário por meio da funcionalidade de métrica personalizada do HAQM CloudWatch. O Console de Gerenciamento da AWS oferece um painel de monitoramento que ajuda a monitorar a integridade e a performance de todos os clusters. O HAQM Redshift também fornece informações sobre a performance de consultas e clusters por meio do Console de Gerenciamento da AWS. Essas informações permitem que você visualize quais usuários e consultas consomem mais recursos do sistema e diagnostique problemas de performance, visualizando planos de consulta e estatísticas de execução. Além disso, é possível visualizar a utilização de recursos de cada um dos nós computacionais para garantir que os dados e as consultas estejam bem balanceadas entre todos os nós.
O que é uma janela de manutenção? Um cluster de data warehouse continua disponível durante manutenções de software?
O HAQM Redshift executa periodicamente manutenções para aplicar correções, aprimoramentos e novos recursos ao seu cluster. Você pode alterar as janelas de manutenção programadas modificando o cluster por meio de programação ou usando o console do Redshift. Durante essas janelas de manutenção, o cluster do HAQM Redshift não está disponível para operações normais. Para obter mais informações sobre as janelas de manutenção e as programações por região, consulte Janelas de manutenção no Guia de gerenciamento do HAQM Redshift.