Blog AWS Indonesia

HAQM Athena menambahkan dukungan untuk kueri set data Apache Hudi di data lake berbasis HAQM S3

HAQM Athena sekarang mendukung kueri untuk view yang dioptimalkan untuk baca dari dataset Apache Hudi di data lake berbasis HAQM S3 Anda.

Apache Hudi adalah framework manajemen data open-source yang digunakan untuk menyederhanakan pengolahan data secara inkremental dan pengembangan pipa data. Hudi memungkinkan data lake berbasis HAQM S3 untuk mematuhi undang-undang privasi data, mengkonsumsi aliran real-time dan mengubah log penangkapan data, mengembalikan data yang terlambat tiba, dan melacak riwayat perubahan dan pengembalian. Apache Hudi adalah open-source dan mendukung menyimpan data di HAQM S3 dalam format open source seperti Apache Parket dan Apache Avro.

Insinyur data menggunakan dukungan Apache Hudi di HAQM EMR untuk mengembangkan jaringan pipa data dan untuk menyederhanakan manajemen data secara inkremental dan kasus penggunaan privasi data yang memerlukan operasi penyisipan, perubahan, dan penghapusan di tingkat baris. Dengan rilis ini, pelanggan sekarang dapat menjalankan kueri Athena untuk membaca view yang dioptimalkan untuk baca dari dataset Hudi.

Untuk informasi dan contoh tentang cara membuat tabel Hudi dan menjalankan kueri, silakan kunjungi dokumentasi.

Artikel ini diterjemahkan dari HAQM Athena adds support for querying Apache Hudi datasets in HAQM S3-based data lake.