亚马逊AWS官方博客
Category: AWS Big Data
为共享和协作而优化的现代分析平台 –使用 Mode 和 HAQM Redshift建设分析堆栈
通过本博文,您将了解:
1. 商业智能 (BI) 现代化的发展各个阶段。此部分将介绍组织在没有真正对分析平台进行现代化改造的情况下采用现代 BI 工具时会出现的问题。
2. 将使用仪表盘和notebook笔记本的解决方案与高效数据管道集于一体的云优先数据科学平台将会以何种方式呈现。
3. 对上述平台进行快速复制的步骤。可以将协作分析解决方案(例如 Mode,HAQM Redshift 合作伙伴之一)与基于 AWS 数据仓库、ETL 和数据探索服务的强大分析基础工具相结合。
授予对 HAQM Redshift 管理控制台的细粒度访问权限
HAQM Redshift 是一项完全托管的服务,它的设计宗旨是易于设置和使用。在本博文中,我们将演示如何为某一运营组中的用户授予访问权限,以便他们仅在 HAQM Redshift 管理控制台中执行特定操作。如果您实施自定义 IAM 策略,则可以对其进行设置,以便这些用户可以监控和终止正在运行的查询。同时,您可以防止这些用户执行其他需要更多权限的操作,例如修改、重启或删除 HAQM Redshift 集群。
通过 HAQM Athena 进行无服务器架构的大数据分析
互联网时代带来了数据量的海量增长,数据驱动业务决策成为大势所趋。分析人员迫切的希望能快速的交互式的从海量的数据中抓取有用的信息来辅助决策。在AWS上,HAQM S3对象存储服务由于其高可用性,高持久性,可扩展性和数据格式兼容性等特点成为建设存储海量数据的数据湖的首选。HAQM Athena可以轻松对HAQM S3中的数据进行交互式查询,是一款开箱即用、无需运维的全托管服务。
使用 R 完成基于 HAQM Athena 交互分析
在本博文中,将通过在 HAQM EC2 实例上运行的 R/RStudio Server 与 Athena 相连接,之后通过浏览器连接RStudio Server执行SQL语句查询S3内的数据。
利用 AWS Lake Formation 探索元数据:第 2 部分
在本博文系列的第 1 部分中,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果
使用 AWS Lake Formation 构建、保护和管理数据湖
传统上,组织将数据保存在固化、单一用途的系统中,例如本地数据仓库设备。同样,他们使用单一方法来分析数据,例如预定义的 BI 报告。在数据库之间移动数据以使用不同方法(例如机器学习 (ML) 或即兴使用的 SQL 查询)来分析数据时,需要在分析之前进行“提取、转换、加载” (ETL) 处理。这些传统方法即便再好,也是效率低下且存在延迟的。最糟糕的是存在复杂的安全性。
AWS Lake Formation 入门
基于AWS Lake Formation您可以轻松构建起安全的数据湖。 数据湖是一个集中的、有组织的、安全的数据存储环境,可以存储您的任意规模的结构化和非结构化数据。 您可以按原样存储数据,而无需先对其进行结构化。 您可以运行包括:仪表板、可视化、大数据处理、实时分析和机器学习等各种类型的分析和处理,以更好地指导决策制定。
使用 HBase on HAQM S3 设置只读副本集群
许多客户已经在享受使用HBase on HAQM S3的众多好处,包括更低的成本、更好的数据持久性和更便捷的可扩展性。美国金融业监管局 (FINRA) 已通过迁移到 HBase on HAQM S3架构将成本降低了 60%,并通过将存储与计算解耦以及将 S3 用作存储层获得了众多运营优势。HBase on HAQM S3允许您启动集群并立即开始对 S3 中的数据进行查询,而不必执行冗长的快照还原过程。
从 HDFS 迁移到基于 HAQM S3 的 Apache HBase 的技巧
从 HAQM EMR 5.2.0 开始,您可以选择基于 HAQM S3 上的 Apache HBase。在 S3 上运行 HBase 可为您额外带来多项优势,包括降低成本、数据持久性和更轻松地进行扩展。
HBase 提供了多个可用于迁移和备份 HBase 表的选项。迁移到 S3 上的 HBase 的步骤与适用于 Apache Hadoop 分布式文件系统 (HDFS) 上的 HBase 的步骤类似。但是,如果您知道一些细微差别和一些“技巧”,则迁移会更容易。
在本文中,我将介绍如何使用一些常用的 HBase 迁移选项开始使用 S3 上的 HBase。
Glue 功能简介 – 快速构建 Serverless ETL
本文将介绍Glue的DataCatalog,爬网程序,ETL,以及Demo展示。