亚马逊AWS官方博客
Category: AWS Big Data
HAQM EMR HBase on S3 之二级索引、Thrift 和性能评测
本文从实战的角度,解释一下亚马逊云科技客户在选择使用 HBase on S3 的时候比较关心的两个问题,一个是如何把已有的 HBase on HDFS 迁移到 HBase on S3,并包含二级索引的迁移;另一个是 HBase on S3 的性能问题。
基于AWS云端数据质量治理解决方案
这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag
基于HAQM CloudWatch 和Grafana 的云上资源监控与报警解决方案
本文将展现一种以HAQM CloudWatch监控的指标为数据源,HAQM EventBridge和AWS Lambda作为运维事件监控和行动触发的组件,HAQM SNS和HAQM SQS作为摄取云上运维事件的消息队列,Grafana作为运维主看板的轻量级解决方案。
从 Kudu 迁移到 Hudi
在构建本地数据中心的时候,出于Kudu良好的性能和兼备OLTP和OLAP的特性,以及对Impala SQL和Spark的支持,很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖,导致无法支持的数据高可用和弹性扩缩容,以及社区的逐渐不活跃,越来越多的用户,开始迁移到云上的Trino/Spark + Hudi 技术栈,本文通过一个实际的例子,来看一下迁移过程中发生的代码的重构和数据的迁移。
使用AWS Glue在HAQM S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
利用自动实体化视图优化您的 HAQM Redshift 查询性能
HAQM Redshift 是一个快速、完全托管式云数据仓库数据库,可使通过标准 SQL 和商业智能工具对 […]
使用新的 AWS Glue DynamoDB Export 连接器加速 AWS Glue 作业中的 HAQM DynamoDB 数据访问评论源
现代数据架构鼓励数据湖、数据仓库和专用数据存储的集成,从而实现统一治理和轻松数据移动。借助 AWS 上的现代数 […]
机器学习多步时间序列预测解决方案
AWS ProServe GCR 利用机器学习进行多步时间序列预测解决方案。
一种使用 AWS 云原生服务部署高可用 APACHE AIRFLOW 集群的方案
对于需要在 AWS 上使用 Apache Airflow 但是 无法使用 AWS 托管服务 MWAA , 或者想使用特定 Apache Airflow 版本, 或者想定制 Apache Airflow 登陆、部署方式的用户,可以通过此方案搭建高可靠的 Apache Airflow 集群,同时提供用户登陆和鉴权机制。此方案已在全球知名 Tier One 汽车供应商的高级辅助驾驶系统(Advanced driver-assistance system, ADAS)开发平台成功应用。
Alluxio on HAQM EMR 集成实践
本文档介绍了Alluxio及在HAQM EMR上部署的整体架构,并修正了Alluxio社区与HAQM EMR上集成的方案,新增加了对EMR task实例组及多主的支持