Veröffentlicht am: Jun 5, 2018

Sie können nun Apache Parquet- und Apache ORC-Dateiformate von HAQM S3 zu Ihrem HAQM RedShift -Cluster KOPIEREN. Parquet und Apache ORC sind spaltenförmige Datenformate, mit denen Benutzer ihre Daten effizienter und kostengünstiger speichern und abfragen können. Mit diesem Update unterstützt Redshift jetzt KOPIEREN aus sechs Dateiformaten: AVRO, CSV, JSON, Parquet, ORC und TXT.

Die Nomenklatur für das Kopieren von Parquet oder ORC ist die gleiche wie für den vorhandenen KOPIEREN-Befehl. Um beispielsweise die Parquet-Dateien im Ordner „Parquet“ am HAQM S3-Standort „s3://mybucket/data/listings/parquet/“ zu laden, würden Sie den folgenden Befehl verwenden:

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

Alle allgemeinen HAQM S3-Speicherklassen werden von dieser neuen Funktion unterstützt, einschließlich S3 Standard, S3 Standard-Infrequent Access und S3 One Zone-Infrequent Access. Die aktuelle Version der Funktion KOPIEREN unterstützt bestimmte Parameter wie FROM, IAM_ROLE, CREDENTIALS, STARTUPDATE und MANIFEST. Nachfolgende Versionen enthalten mehr KOPIEREN-Parameter. Die HAQM Redshift Dokumentation listet die aktuellen Einschränkungen für die Funktion auf.

KOPIEREN von Parquet und ORC ist mit der neuesten Version <1.0.2294> in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia, Ohio), USA West (Oregon, Nordkalifornien), Kanada (Zentral), Südamerika (São Paulo), EU (Frankfurt, Irland, London), Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney, Tokio).