亚马逊AWS官方博客
Category: AWS Big Data
基于 Apache Kafka 和 AWS 构建端到端的无服务器流式 ETL 管道
使用 Apache Kafka、HAQM Redshift Serverless 和 HAQM EMR Serverless 构建端到端无服务器流式 ETL 管道
利用 Serverless 方式自动化设置 EMR 集群时区
在 EMR 使用场景中,数据分析需要对 EMR on EC2 集群节点进行自动化设置指定正确的时区。
亚马逊云科技异常流量监控告警
本文将介绍一种出口流量监控方案,它融合了亚马逊云科技原生服务和第三方监控工具 Grafana,为您呈现一种全新的流量监控体验。
从 AWS DynamoDB 迁移数据到 AWS Aurora MySQL
一、概述 虽然 AWS DynamoDB 提供了高性能、可扩展的 NoSQL 解决方案,但在某些业务场景下存在 […]
HAQM OpenSearch Service 宣布 Elasticsearch 和 OpenSearch 版本的标准支持和扩展支持日期
HAQM OpenSearch Service 支持 19 个版本的 Elasticsearch 和 11 个版本的 OpenSearch
使用 Serverless 架构快速构建基于 Iceberg 的事务型实时数据湖
目前大部分使用数据湖技术的场景,需要托管大规模的大数据集群,例如 Kafka 集群,Hadoop 集群等等,但是,由于集群的运维复杂度和资源弹性管理需要投入大量的人力。并且如果需要实现从数据库到数据湖的实时同步,需要对数据库事务性的数据变更进行单独的处理,才能够使得数据库与数据湖之间数据保持一致性。因此,本文提出基于 AWS 中相关的 Serverless 服务来构建数据湖,该方案主要利用 AWS 中 MSK Connect,MSK Serverless,Glue,Athena 来构建无服务的数据湖方案。
AWS EMR HBase 例行灾备方案:快照备份与还原演练
该方案是为某用户定制的 HBase 灾备方案,方案本身具有很好的适用性,可以复用于常规 HBase 灾备场景。用户每周对 HBase 进行一次全量备份,将快照上传至 S3 保存,同时,在其他系统中保存着两周以内的增量数据,当 HBase 宕机时,会先还原快照将数据库恢复至一周内某一时刻的全量状态,然后再从其他系统读取一周内的增量数据进行补录。本文将重点讨论 HBase 基于快照的例行备份和灾后恢复操作,并给出详细的解释和操作脚本。
AWS EMR HBase 超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步(Snapshot + Replication)不停机迁移方案
本文介绍的演练操作源于某真实案例,用户有一个 80 TB 的 HBase 数据库,其中有一张超大表,数据量约为 50 TB,在一次迁移任务中,用户需要将该 HBase 数据库迁移到 HAQM EMR 上。 本文将讨论并演示:将一个 50 TB HBase 单表不停机迁移数据到一个 HBase on S3 集群上,过程中会给出详细的步骤说明和操作脚本。
FIS 如何使用 HAQM OpenSearch Service 摄取和搜索向量数据以快速解决工单问题
此博文由 FIS 高级数据科学经理 Sheel Saket 和 HAQM Web Services 高级架 […]
使用 HAQM Lambda 简化跨账号管理多个亚马逊云科技账号资源
随着业务规模的扩大,许多公司会采用多个亚马逊云科技账号的策略以便隔离资源,降低运维爆炸半径。