亚马逊AWS官方博客

Category: AWS Big Data

在 HAQM EMR 上运行 PySpark 报表业务

前言
关于Spark和HAQM EMR
正文
数据集
启动EMR Spark集群
PySpark编程和调试
使用Spark SQL API和DataFrame编写报表任务
使用EMR步骤功能提交PySpark任务
创建EMR一次性集群运行PySpark任务
对并表后的数据进行查询
结语

使用 AWS Step Functions 和 AWS Glue 编排基于 HAQM Redshift 的 ETL 工作流

在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于HAQM Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。