发布于: Nov 22, 2022

HAQM EMR Serverless 宣布支持使用 Spark 和 Hive 工作流程读写 HAQM DynamoDB 中的数据。您现在可以直接从 EMR Serverless Spark 和/或 Hive 应用程序中导出、导入、查询和连接 HAQM DynamoDB 中的表。HAQM DynamoDB 是一个全面管理的 NoSQL 数据库,可提供个位数毫秒级延迟和可预测的性能,以及无缝的吞吐量和存储扩展性,满足高要求应用程序的延迟和吞吐量需求。 

AWS 用户通常需要有效地大规模处理存储在 HAQM DynamoDB 中的数据,用于下游分析。HAQM EMR 团队构建了 emr-dynamodb-connector 并开放了其源代码,以帮助客户简化使用 Apache Spark 和 Apache Hive 应用程序对 HAQM DynamoDB 进行的访问和配置。该连接器支持多种使用案例分析,包括高效处理 HAQM DynamoDB 中的数据,或将 HAQM DynamoDB 中的表与 HAQM S3、HAQM RDS 或其他可由 HAQM EMR Serverless 访问的数据存储中的外部表进行连接。借助 HAQM EMR 版本 6.9,您可以通过 HAQM EMR Serverless 应用程序获得 HAQM DynamoDB 连接器的所有好处。您可以使用跨区域和跨账户功能访问 HAQM DynamoDB 表。 

此外,我们很高兴地宣布,EMR Serverless 支持从其他 AWS 账户访问特定的 HAQM S3 桶,以处理来自 Spark 和 Hive 应用程序的数据。AWS 客户可以使用多个 AWS 账户来更好地分离不同的项目或业务线。借助跨账户功能,客户可以通过一种集中的方式来简化跨多个账户的分布式数据湖的保护和管理。借助对 HAQM S3 的跨账户访问,您可以在一个 AWS 账户中使用 EMR Serverless Spark 或 Hive 应用程序,并从其他 AWS 账户访问存储在特定桶中的数据以进行处理。 

这些功能现在可以在所有提供 EMR Serverless 的区域使用。要了解更多信息,请参阅 HAQM EMR Serverless 文档