亚马逊AWS官方博客
Category: AWS Big Data
基于rclone构建Cross Border Data Transfer服务
基于rclone构建Cross Border Data Transfer服务,简化Cross Border Data Transfer任务管理。
HAQM Glue ETL作业调度工具选型初探
HAQM Glue是一项完全托管,无服务器架构的ETL服务。客户无需预置基础设置,只需要专注开发ETL代码,并且使用HAQM Glue时,只需为ETL作业运行时间付费。 在迁移现有ETL任务到Glue的过程中,有可能面临编排选型的问题。本文就编排选型,如何实现自动化迁移工作流,减少开发人员适配工作上做一定的探索。
Redshift表设计优化 – 优化已有数据表中的列大小
本文中介绍了如何通过SQL脚本的方式来对一张Redshift表中的varchar数据列进行优化。
使用 AWS Cloudformation 在 HAQM EMR 中一分钟配置 JuiceFS
这是一篇使用 JuiceFS 作为 HAQM EMR 存储后端的快速入门文章,JuiceFS 是一个专门为在云端工作而设计的 POSIX 兼容的共享文件系统并且兼容 HDFS。JuiceFS 与自建的 HDFS 相比,可以节省 50% ~ 70% 的成本,同时达到与自建 HDFS接近的性能。
HAQM Redshift Spectrum – EB 级的 S3 数据就地查询
HAQM Redshift 允许 AWS 客户构建 PB 级的数据仓库,使来自各种内部和外部源的数据得以整合。由于 Redshift 针对大型表上的复杂查询(通常涉及多个join)进行了优化,因此它可以毫不费力地处理大量零售、库存和财务数据。加载数据后,我们的客户可以使用由 Redshift 合作伙伴提供的大量企业报告和商业智能工具。
AWS 教您手把手玩转 Apache Superset 可视化 HAQM S3 里的数据
本篇博客会带您一步一步地在AWS上部署Apache Superset并在Superset上创建一个展示新冠肺炎情况的Dashboard(示例如下)。新冠肺炎数据存储于HAQM S3上并通过HAQM Athena来直接查询。
使用 HAQM Athena 的联合查询和由用户定义的函数简化 ETL 数据管道
HAQM Athena 最近在预览版中增加了对联合查询及由用户定义的函数 (UDF) 的支持。请参阅使用 HAQM Athena 的全新联合查询对任何数据源进行查询,以了解更多详细信息。Jornaya 帮助营销人员智能的与市场中购买大型生活用品(如房屋、抵押贷款、汽车、保险和教育等)的消费者建立联结。
使用 HAQM EMR、HAQM SageMaker 和 AWS Service Catalog 设置 Intuit 数据湖
我们将讨论在较高层面构建 Intuit 数据湖所包含的技术和过程,包括设置账户和资源所使用的整体结构与自动化等。请关注我们这个空间的未来动态,阅读由其他合作构建 Intuit 数据湖的团队和工程师发布的关于该系统特定方面的更详细博文。
通过迁移实现架构和应用的现代化
企业需要快速创建数字化服务体系,通过向云迁移,敏捷地实现创新转型,以加速业务发展和提高客户满意度。企业的IT管理人员和信息架构师的首要任务就是了解和把握信息技术的发展趋势,提升企业的技术水平,为企业发展提供一流的构建能力。
通过 AWS Lake Formation FindMatches 转换匹配患者记录
患者匹配是实现医疗护理互通性的主要障碍之一。不匹配的患者记录和无法检索患者历史信息可能严重阻碍做出正确的临床决定,并导致漏诊或治疗延误。另外,医疗护理提供者经常会花精力去处理患者重复数据的删除,尤其当他们的数据库中的患者记录数量急速增加时。电子健康记录 (EHR) 近年来大幅优化了患者的安全和护理协调,但准确的患者匹配对很多医疗护理组织来说仍然是一项挑战。