亚马逊AWS官方博客
Category: AWS Big Data
在 HAQM EMR 上运行 PySpark 报表业务
前言
关于Spark和HAQM EMR
正文
数据集
启动EMR Spark集群
PySpark编程和调试
使用Spark SQL API和DataFrame编写报表任务
使用EMR步骤功能提交PySpark任务
创建EMR一次性集群运行PySpark任务
对并表后的数据进行查询
结语
将存储过程迁移到 HAQM Redshift
HAQM 始终以满足客户需求为工作重点。客户强烈要求希望能在 HAQM Redshift 中使用存储过程,以便更轻松地从原有的本地数据仓库迁移现有工作负载
使用 AWS Glue 从 Kinesis 数据流中分离出不同的数据库表格
我们看到越来越多的用户,越来越关注数据的时效性,以流处理为起点开始设计他们的大数据平台,比如说数据采集时,不再是周期性的用SQL进行批量查询,而是实时采集系统日志或者数据库 WAL(Write-Ahead Logging)这些变更信息。
使用 AWS Step Functions 和 AWS Glue 编排基于 HAQM Redshift 的 ETL 工作流
在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于HAQM Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。
利用 DataSunrise Security 保护和审计 HAQM Redshift 中的 PII 数据
这篇文章重点介绍了 HAQM Redshift 的主动安全性,尤其是 DataSunrise 对个人身份信息 (PII) 的屏蔽和访问控制功能,您可以使用 DataSunrise 的被动安全性产品(如敏感信息访问审计)来支持这些功能。文章还讨论了 HAQM Redshift 的 DataSunrise 安全性、工作原理以及如何使用。
利用 Redshift 控制台简化 HAQM Redshift 集群的管理
这篇文章讨论了如何使用新控制台创建第一个集群,以及如何在您的 AWS 帐户中管理和监控集群。
如何在不停机的情况下将大型数据仓库从 IBM Netezza 迁移到 HAQM Redshift 中
在本文中,我们将说明此客户如何在不需要停机的情况下将大型数据仓库从 IBM Netezza 迁移到 HAQM Redshift,然后再说明如何遵照计划充分的迁移过程及利用 AWS Schema Conversion Tool (SCT) 和 HAQM Redshift 最佳实践。
利用 Active Directory 联合身份访问基于 HAQM Elasticsearch Service 的 Kibana
AWS最近发布了 HAQM Elasticsearch Service 与 HAQM Cognito 集成的服务,现在企业用户在使用 Kibana访问 HAQM Elasticsearch Service时,可以使用企业目录凭证来进行联合身份认证
如何为 HAQM S3 中的 AWS KMS 加密数据启用跨账户 HAQM Redshift COPY 和 Redshift Spectrum 查询
此博文显示了如何使用 HAQM S3 中的示例数据集设置跨账户 HAQM Redshift COPY 和 Spectrum 查询的逐步演练。示例数据集使用 AWS KMS 托管的密钥 (SSE-KMS) 进行静态加密。
使用 AWS CloudFormation 自动创建 HAQM Redshift 集群
在本博文中,我将介绍如何在 AWS 账户中自动部署 HAQM Redshift 集群。有关安全性和高可用性的 AWS 最佳实践有助于集群配置,并且您可以使用 AWS CloudFormation 快速创建集群。 我将向您介绍一组 CloudFormation 示例模板,您可以根据需要对其进行自定义。