亚马逊AWS官方博客

Tag: Apache Hudi

在HAQM EMR上构建实时数据湖

在 HAQM EMR 集群上,通过使用Flink, Spark 等服务与Hudi 集成,配合 Airflow, HAQM MSK 等服务可以轻松实现流式数据湖的构建,从而有效的减少了数据从产生到消费的数据延迟。同时借助 HAQM EMR 和 HAQM MSK, 消除了 Flink /Spark/Kafka 等基础服务运营开销,让这些服务开箱即用,从而使我们只要关心数据湖的构建以及湖上的数据处理