投稿日: Sep 5, 2018
HAQM S3 が S3 Select に機能の強化を発表しました。S3 Select は、オブジェクトから必要なデータのみを抽出するよう設計された HAQM S3 機能で、パフォーマンスを大幅に改善し、S3 のデータへのアクセスに必要なアプリケーションのコストを削減することができます。
本日から、HAQM S3 Select は CSV と JSON フォーマットで保存されたオブジェクトに使えます。お客様の声に基づいて、S3 Select は Apache Parquet フォーマット、JSON Array、CSV と JSON オブジェクトに対する BZIP2 圧縮をサポートするようにしました。また、S3 Select に対する CloudWatch Metrics へのサポートも加え、アプリケーションでの S3 Select の使用をモニターします。
Parquet は、Hive、Presto、Impala などの幅広いクエリエンジンや、Spark や MapReduce などの複数のフレームワークをサポートするために広く使われています。S3 Select Parquet では S3 Select を用いて S3 に保存されたデータから特定のコラムを取得でき、GZIP または Snappy を用いた列指向圧縮をサポートします。結果には CSV または JSON フォーマットを指定でき、また結果中のレコードをどのように区切るかをユーザーが決定できます。
JSON Array をサポートしていますので、JSON オブジェクト中のノードを反復できます。これらのネストされた JSON オブジェクトは S3 Select クエリの FROM クローズ内でパスナビゲーションを指定することでクエリできます。
BZIP2 はテキストデータの圧縮に広く使われている圧縮フォーマットで、他の多くの圧縮アルゴリズムよりも通常より効率的です。
S3 に対する CloudWatch メトリクスでは、アプリケーションの健全性を追跡できます。これらのメトリクスは 1 分間間隔で使用でき、オペレーション上の問題をすばやく特定し、これに対処できます。新しい S3 Select に固有のメトリクスには S3 Select リクエスト数、スキャンしたデータ量、返されたデータ量などがあります。
これらの HAQM S3 Select 向けの機能は、本日より、すべての商用 AWS リージョンで利用できます。
HAQM S3 Select に着いての詳細は、HAQM S3 開発者ガイドのオブジェクトからのコンテンツの選択ページをご覧ください。S3 に対する HAQM CloudWatch Metrics の詳細については、HAQM S3 開発者ガイドのHAQM CloudWatch でのメトリクスのモニタリング ページをご覧ください。使用を開始するには、AWS マネジメントコンソールを参照してください。