亚马逊AWS官方博客
Category: AWS Big Data
使用Alluxio优化EMR上Flink Join
针对Flink流式处理业务场景中经常遇到的lookup join的性能瓶颈,本文提出了通过Alluxio缓存层和Flink时态表join方案,将hive维度表数据自动加载至Alluxio UFS缓存中,并做为join时变化表上视图,可以有效的解决该痛点
Feast on AWS 解决方案
本文介绍了Feast框架的整体架构及设计思路,并step by step详细说明了Feast on AWS集成和使用,包括安装部署离线/在线特征库、使用特征库、特征库同步的方法等。对于使用Feast开源框架构建MLOps平台的用户,本文可以作为快速构建和开发指南
HAQM EMR Hudi 性能调优——Clustering
Hudi作为HAQM EMR提供的智能湖仓的重要组件,已经得到越来越广泛的应用,Hudi在考虑到多种业务场景的同时,也对查询性能提供了很多的优化的方法,例如Index,Metadata Table, Clustering。本篇Blog介绍Hudi在查询方面做的性能优化的方法之一 —- Clustering, 通过介绍 Clustering的原理,操作,以及查询性能的对比,有助于读者理解Hudi Clustering, 并在实际开发中找到适合的场景。
基于OpenLDAP与Kerberos的HAQM EMR身份认证方案(三):基于SASL/GSSAPI深度集成
本系列文章将基于OpenLDAP和Kerberos给出完整的HAQM EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。
基于OpenLDAP与Kerberos的HAQM EMR身份认证方案(二):基于SSSD同步LDAP账号
本系列文章将基于OpenLDAP和Kerberos给出完整的HAQM EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。
基于OpenLDAP与Kerberos的HAQM EMR身份认证方案(一):整合后台数据库
本系列文章将基于OpenLDAP和Kerberos给出完整的HAQM EMR身份认证解决方案,全系列由三篇文章组成,涵盖三个相对独立又紧密关联的子话题,方案会详细介绍使用到的技术原理同时给出完备的执行脚本用于实际环境的搭建。
Kylin 4 集成 HAQM Glue Catalog!
Kylin 4 集成 HAQM Glue Catalog
借助 HAQM Redshift 为具有强大抗风险能力的使用案例提供支持
HAQM Redshift 是最受欢迎、最快的云数据仓库,提供与您的数据湖和其他数据源的无缝集成,性能出色,本文探讨了将 HAQM Redshift 作为核心数据仓库平台来最大限度地提高数据可用性的不同架构和使用案例。
构建现代化数据架构-使用 HAQM AppFlow、HAQMLake Formation 和 HAQM Redshift
这篇博文中的步骤可帮助您计划使用托管服务构建类似的现代数据策略,以便从 Salesforce 等来源提取数据,自动创建元数据目录并在数据湖和数据仓库之间无缝共享数据,以及在出现编排数据工作流程失败时创建警报。
新使用体验 — HAQM SageMaker Studio 创建和管理 EMR 集群与 Spark 作业
HAQM SageMaker Studio 的用户可以直接创建、终止、管理HAQM EMR 集群