FAQ HAQM Redshift
Umum
Buka semuaApa itu HAQM RedShift?
Puluhan ribu pelanggan menggunakan HAQM Redshift setiap hari untuk menjalankan analitik SQL di cloud, memproses sejumlah eksabita data untuk wawasan bisnis. Baik data pertumbuhan Anda disimpan di penyimpanan data operasional, danau data, layanan streaming data, atau set data pihak ketiga, HAQM Redshift membantu Anda dengan aman mengakses, menggabungkan, dan berbagi data dengan lebih sedikit perpindahan atau menyalin. HAQM Redshift sangat terintegrasi dengan basis data AWS, analitik, dan layanan machine learning untuk menggunakan pendekatan Zero-ETL atau membantu Anda mengakses data di tempat untuk analitik mendekati waktu nyata, membuat model machine learning di SQL, dan mengaktifkan analitik Apache Spark menggunakan data di Redshift. HAQM Redshift Nirserver memungkinkan teknisi, developer, ilmuwan data, dan analis Anda untuk memulai lebih mudah dan menskalakan analitik lebih cepat di lingkungan tanpa administrasi. Dengan mesin Pemrosesan Paralel Masif (MPP) dan arsitekturnya yang memisahkan komputasi dan penyimpanan untuk penskalaan yang efisien, dan inovasi performa berbasis machine learning (misalnya: AutoMaterialized Views), HAQM Redshift dibuat untuk menskalakan dan memberikan performa harga 5x lebih baik daripada gudang data cloud lainnya.
Apa alasan utama pelanggan memilih HAQM Redshift?
Ribuan pelanggan memilih HAQM Redshift untuk mempercepat waktu mereka mendapatkan wawasan karena HAQM Redshift adalah sistem analitik hebat yang berintegrasi dengan basis data dan layanan machine learning dengan baik, efisien saat digunakan, dan dapat menjadi layanan pusat untuk mengirimkan semua keperluan analitik mereka. HAQM Redshift Nirserver secara otomatis menyediakan dan menskalakan kapasitas gudang data untuk memberikan performa tinggi untuk beban kerja yang berat dan tidak terprediksi. HAQM Redshift menawarkan performa harga terdepan untuk beban kerja analitik yang beragam, baik itu pembuatan dasbor, pengembangan aplikasi, berbagi data, pekerjaan ETL (Extract, Transform, Load) atau lainnya. Dengan puluhan ribu pelanggan menjalankan analitik dalam terabita ke petabita data, HAQM Redshift mengoptimalkan performa beban kerja nyata pelanggan, berdasarkan telemetri performa armada, dan memberikan performa yang dapat mengukur beban kerja secara linear, namun tetap menjaga biaya tetap rendah. Inovasi performa tersedia untuk pelanggan tanpa biaya tambahan. HAQM Redshift memungkinkan Anda mendapatkan wawasan dari menjalankan analitik prediktif dan waktu nyata pada semua data Anda di seluruh basis data operasional, danau data, gudang data, data streaming data, dan set data pihak ketiga. HAQM Redshift mendukung keamanan yang terkemuka di industri dengan manajemen dan federasi identitas untuk masuk tunggal (SSO), autentikasi multi-faktor, kontrol akses tingkat kolom, keamanan tingkat baris, kontrol akses berbasis peran, HAQM Virtual Private Cloud (HAQM VPC), dan pengukuran ulang klaster yang lebih cepat.
Bagaimana cara HAQM Redshift menyederhanakan manajemen gudang data dan analitik?
HAQM Redshift dikelola penuh oleh AWS sehingga Anda tidak perlu lagi khawatir tentang tugas-tugas manajemen gudang data seperti penyediaan perangkat keras, patching perangkat lunak, pengaturan, konfigurasi, simpul pemantauan, dan drive untuk pemulihan dari kegagalan, atau cadangan. AWS mengelola pekerjaan yang diperlukan untuk menyiapkan, mengoperasikan, dan menskalakan gudang data mewakili Anda, membebaskan Anda untuk fokus membangun aplikasi Anda. HAQM Redshift Nirserver secara otomatis menyediakan dan menskalakan kapasitas gudang data untuk memberikan performa tinggi untuk beban kerja yang berat dan tidak terprediksi, dan Anda hanya membayar untuk sumber daya yang Anda gunakan. HAQM Redshift juga memiliki kemampuan penyetelan otomatis, dan memberikan rekomendasi untuk mengelola gudang data Anda di Redshift Advisor. Dengan Redshift Spectrum, HAQM Redshift mengelola semua infrastruktur komputasi, penyeimbangan beban, perencanaan, penjadwalan, dan eksekusi kueri Anda pada data yang disimpan di HAQM S3. HAQM Redshift memungkinkan analitik semua data Anda dengan integrasi mendalam ke layanan basis data dengan fitur seperti Zero-ETL HAQM Aurora ke HAQM Redshift dan menggabungkan kueri untuk mengakses data di tempat dari basis data operasional seperti HAQM RDS dan danau data HAQM S3 Anda. Redshift memungkinkan penyerapan data yang efisien tanpa kode, pipeline data otomatis yang menyerap data streaming atau file HAQM S3 secara otomatis. Redshift juga terintegrasi dengan AWS Data Exchange yang memungkinkan pengguna untuk menemukan, berlangganan, dan membuat set data kueri pihak ketiga serta menggabungkan data tersebut untuk wawasan yang komprehensif. Dengan integrasi asli ke HAQM SageMaker, pelanggan dapat tetap dalam gudang data mereka dan membuat, melatih, dan membangun model machine learning di SQL. HAQM Redshift mengirimkan semua kebutuhan analitik SQL Anda dengan performa harga 5x lebih baik daripada gudang data cloud lainnya.
Apa saja opsi deployment untuk HAQM Redshift?
HAQM Redshift adalah layanan terkelola penuh dan menawarkan opsi yang tersedia dan nirserver, membuat Anda lebih efisien dalam menjalankan dan menskalakan analitik tanpa harus mengelola gudang data Anda. Anda dapat menjalankan titik akhir HAQM Redshift Nirserver baru untuk menyediakan gudang data secara otomatis dalam hitungan detik atau Anda dapat memilih opsi yang tersedia untuk beban kerja yang dapat diperkirakan.
Bagaimana cara memulai HAQM Redshift?
Hanya dengan beberapa langkah di Konsol Manajemen AWS, Anda dapat mulai mengkueri data. Anda dapat memanfaatkan contoh set data yang telah dimuat, termasuk set data tolok ukur TPC-H, TPC-DS, dan contoh kueri lainnya untuk segera memulai analitik. Untuk memulai dengan HAQM Redshift Nirserver, pilih “Coba HAQM Redshift Nirserver” dan mulai mengkueri data. Mulai di sini.
Bagaimana performa HAQM Redshift dibandingkan dengan gudang data lain?
Hasil tolok ukur TPC-DS menunjukkan bahwa HAQM Redshift memberikan performa harga terbaik, bahkan untuk set data 3 TB yang relatif kecil. HAQM Redshift memberikan performa harga hingga 5x lebih baik daripada gudang data cloud lainnya. Ini artinya Anda dapat memanfaatkan performa harga terdepan HAQM Redshift dari awal tanpa penyetelan manual. Berdasarkan performa telemetri armada, kami juga mengetahui bahwa kebanyakan beban kerja adalah beban kerja kueri pendek (beban kerja yang berjalan kurang dari 1 detik). Untuk beban kerja tersebut, tolok ukur terbaru menunjukkan bahwa HAQM Redshift menawarkan hingga 7x performa harga yang lebih baik dalam beban kerja latensi rendah dan konkurensi tinggi daripada gudang data lainnya. Pelajari selengkapnya di sini.
Apakah saya bisa mendapatkan bantuan untuk mempelajari selengkapnya dan mengadopsi HAQM Redshift?
Ya, spesialis HAQM Redshift hadir untuk menjawab pertanyaan dan memberikan dukungan. Hubungi kami dan Anda akan mendapatkan respons kami dalam satu hari kerja untuk mendiskusikan cara AWS dapat membantu organisasi Anda.
Apa itu penyimpanan terkelola HAQM Redshift?
Penyimpanan terkelola HAQM Redshift tersedia dengan jenis simpul RA3 nirserver dan memungkinkan Anda menskalakan serta membayar komputasi juga penyimpanan secara independen sehingga Anda dapat mengatur besar klaster hanya berdasarkan kebutuhan komputasi. Penyimpanan ini secara otomatis menggunakan penyimpanan lokal berkinerja tinggi berbasis SSD sebagai cache tingkat 1 dan memanfaatkan optimasi seperti temperatur blok data, usia blok data, dan pola beban kerja untuk memberikan kinerja yang tinggi seraya menskalakan penyimpanan secara otomatis ke HAQM S3 saat diperlukan tanpa memerlukan tindakan apa pun.
Bagaimana cara menggunakan penyimpanan terkelola HAQM Redshift?
Jika Anda telah menggunakan simpul Dense Storage atau Dense Compute HAQM Redshift, Anda dapat menggunakan Elastic Resize untuk meningkatkan klaster Anda ke instans komputasi RA3 yang baru. HAQM Redshift Nirserver dan klaster yang menggunakan instans RA3 otomatis menggunakan penyimpanan terkelola Redshift untuk menyimpan data. Tidak diperlukan tindakan lain selain menggunakan HAQM Redshift Nirserver atau instans RA3 untuk menggunakan kemampuan ini.
Bagaimana saya dapat menjalankan kueri dari Redshift untuk data yang tersimpan di Danau Data AWS?
HAQM Redshift Spectrum adalah fitur HAQM Redshift yang memungkinkan Anda menjalankan kueri terhadap danau data di HAQM S3, tanpa memerlukan pemuatan data atau ETL. Ketika Anda menerbitkan kueri SQL, kueri menuju ke titik akhir HAQM Redshift, yang menghasilkan dan mengoptimalkan rencana kueri. HAQM Redshift menentukan data apa yang lokal dan apa yang ada di HAQM S3, membuat rencana untuk meminimalkan jumlah data S3 yang harus dibaca, meminta pekerja HAQM Redshift Spectrum dari kumpulan sumber daya yang dibagikan untuk membaca dan memproses data dari HAQM S3.
Kapan saya sebaiknya mempertimbangkan untuk menggunakan instans RA3?
Pertimbangkan untuk memilih tipe simpul RA3 dalam kasus-kasus berikut:
- Anda memerlukan fleksibilitas untuk menskalakan dan membayar komputasi terpisah dari penyimpanan.
- Anda mengkueri sebagian total data Anda.
- Volume data Anda cepat tumbuh atau diperkirakan akan tumbuh dengan cepat.
- Anda menginginkan fleksibilitas untuk mengubah ukuran klaster hanya berdasarkan kebutuhan performa Anda.
Seiring dengan pertumbuhan skala data yang mencapai hingga petabita, jumlah data yang Anda serap ke dalam gudang data HAQM Redshift juga bertumbuh. Anda mungkin mencari cara untuk menganalisis semua data Anda dengan biaya yang efektif.
Dengan instans RA3 HAQM Redshift dengan penyimpanan terkelola, Anda dapat memilih jumlah simpul berdasarkan persyaratan performa Anda, dan hanya membayar untuk penyimpanan terkelola yang Anda gunakan. Ini memberikan Anda fleksibilitas untuk mengatur ukuran klaster RA3 Anda berdasarkan jumlah data yang Anda proses setiap harinya tanpa meningkatkan biaya penyimpanan Anda. Dibangun di AWS Nitro System, instans RA3 dengan penyimpanan terkelola menggunakan SSD performa tinggi untuk data panas Anda dan HAQM S3 untuk data dingin Anda, memberikan kemudahan penggunaan, penyimpanan hemat biaya, dan performa kueri cepat.
Fitur apa yang dapat saya gunakan untuk analitik berbasis lokasi?
HAQM Redshift spasial menyediakan analitik berbasis lokasi untuk wawasan kaya ke dalam data Anda. Ini dengan mulus mengintegrasikan data spasial dan bisnis untuk menyediakan analitik untuk pengambilan keputusan. HAQM Redshift meluncurkan dukungan pemrosesan data spasial pada November 2019, dengan jenis data polimorfik GEOMETRY dan beberapa fungsi spasial SQL kunci. Kami sekarang mendukung jenis data GEOGRAPHY, dan pustaka fungsi spasial SQL kami telah tumbuh menjadi 80. Kami mendukung semua tipe dan standar data spasial umum, termasuk Shapefiles, GeoJSON, WKT, WKB, eWKT, dan eWKB. Untuk mempelajari selengkapnya, kunjungi halaman dokumentasi atau halaman tutorial spasial HAQM Redshift.
Bagaimana perbandingan dukungan SQL Athena dengan Redshift, dan bagaimana saya memilih antara kedua layanan tersebut?
HAQM Athena dan HAQM Redshift Nirserver menangani kebutuhan dan kasus penggunaan yang berbeda meskipun kedua layanan tersebut nirserver dan memungkinkan pengguna SQL.
Dengan arsitektur Pemrosesan Paralel Masif (MPP) yang memisahkan penyimpanan dan komputasi dan kemampuan optimasi otomatis yang diarahkan oleh machine learning, gudang data seperti HAQM Redshift, baik nirserver maupun disediakan, adalah pilihan terbaik untuk pelanggan yang membutuhkan performa harga terbaik dalam skala apa pun untuk BI kompleks dan beban kerja analitik. Pelanggan dapat menggunakan HAQM Redshift sebagai komponen pusat dari arsitektur data dengan integrasi mendalam yang tersedia untuk mengakses data di tempat atau menyerap atau memindahkan data dengan mudah ke gudang untuk analitik performa tinggi, melalui metode ZeroETL dan tanpa kode. Pelanggan dapat mengakses data yang tersimpan di HAQM S3, basis data operasional seperti Aurora dan HAQM RDS, gudang data pihak ketiga melalui integrasi dengan AWS Data Exchange, dan menggabungkan data yang tersimpan di gudang data HAQM Redshift untuk analitik. Pelanggan dapat menerima pembuatan gudang data dengan mudah dan menjalankan machine learning di atas semua data ini.
HAQM Athena sangat cocok untuk analitik interaktif dan penjelajahan data di danau data Anda atau semua sumber data melalui kerangka kerja konektor yang dapat diperluas (termasuk 30 lebih konektor unik untuk aplikasi dan on-premise atau sistem analitik cloud lainnya) tanpa mengkhawatirkan penyerapan atau pemrosesan data. HAQM Athena dibangun di mesin dan kerangka kerja sumber terbuka seperti Spark, Presto, dan Apache Iceberg, yang memberikan pelanggan kebebasan untuk menggunakan Python atau SQL atau mengerjakannya di format data terbuka. Jika pelanggan ingin melakukan analitik interaktif menggunakan kerangka kerja dan format data sumber terbuka, HAQM Athena adalah pilihan terbaik untuk memulai.
Apakah fleksibilitas ukuran berlaku untuk simpul Terpesan Redshift?
Tidak, instans Terpesan Redshift tidak fleksibel, dan hanya berlaku khusus untuk tipe simpul yang Anda pesan.
Analitik SQL HAQM SageMaker
Buka semuaApa manfaat menggunakan Redshift di SageMaker untuk analitik SQL?
SageMaker menyederhanakan analitik SQL dengan menyediakan platform komprehensif dan ramah pengguna yang menghubungkan berbagai sumber data dan menyederhanakan eksplorasi data. Dengan antarmuka bergaya notebook yang fleksibel, Anda dapat mengakses data dari HAQM Simple Storage Service (HAQM S3), HAQM Redshift, dan sumber data lainnya, menulis dan menjalankan kueri di berbagai mesin, dan langsung membuat visualisasi di dalam alat. Platform ini secara otomatis mengelola metadata data Anda, sehingga lebih mudah untuk memahami dan menemukan informasi. Dengan mengintegrasikan secara mulus dengan layanan AWS lainnya, platform ini memungkinkan Anda melampaui analisis SQL tradisional, mengubah data Anda menjadi wawasan yang dapat ditindaklanjuti dengan kompleksitas teknis minimal.
Apakah saya harus memigrasikan data dari HAQM S3 atau gudang data HAQM Redshift yang ada untuk menggunakan SageMaker untuk analitik SQL?
Tidak, Anda tidak perlu memigrasi data Anda untuk menggunakan SageMaker untuk analitik SQL. Anda dapat langsung menemukan dan mengkueri data dari berbagai sumber, termasuk HAQM S3 (Katalog Data AWS Glue dan bucket tabel HAQM S3), HAQM Redshift (nirserver dan disediakan), dan 13 sumber data gabungan tambahan yang kompatibel dengan alur kerja rekayasa SQL. HAQM SageMaker Lakehouse terhubung dengan mulus ke data Anda saat ini, sehingga Anda dapat fokus pada wawasan, bukan menghabiskan waktu memindahkan informasi. Hanya dalam beberapa langkah cepat, Anda akan dapat menjelajahi data Anda, menjalankan kueri, dan mengungkap informasi bisnis yang berharga tanpa kerepotan teknis.
Bagaimana cara memuat data dan mulai menggunakan SageMaker untuk analitik SQL?
Untuk memulai, SageMaker menawarkan dua cara untuk membawa data Anda ke platform untuk analitik SQL. Jika Anda menyimpan informasi Anda di HAQM S3, SageMaker SQL memungkinkan Anda menjalankan kueri langsung pada data tersebut dengan danau data. Anda juga dapat mengunggah data muat ke gudang data Anda dengan menjalankan perintah COPY. Jika Anda memiliki data lokal di desktop, SageMaker memungkinkan Anda untuk mengunggah file data langsung dari komputer Anda sendiri dengan menyeret dan melepaskan file data ke platform SageMaker. Selain itu, Anda dapat menggunakan nol-ETL untuk membawa data dari gudang data operasional Anda. Seluruh proses dirancang untuk menghilangkan hambatan teknis, memungkinkan Anda untuk fokus menemukan wawasan daripada bergulat dengan proses pemuatan data yang kompleks.
Apa pengalaman buku kueri SageMaker?
HAQM SageMaker unified studio (pratinjau), menawarkan antarmuka bergaya notebook yang andal dan ramah pengguna untuk analitik SQL yang komprehensif. Anda dapat menulis dan menjalankan kode SQL di sel terpisah, membuat bagan dan visualisasi, dan menjelajahi data terpadu dari berbagai sumber, seperti HAQM S3, HAQM Redshift, dan berbagai sumber federasi melalui SageMaker Lakehouse. Platform ini juga menyediakan fitur bermanfaat, seperti pelengkapan otomatis dan pemeriksaan sintaks untuk membantu penulisan SQL Anda. Anda juga dapat menggunakan fungsionalitas AI generatif dengan SQL generatif HAQM Q, yang menyediakan rekomendasi kode SQL menggunakan bahasa alami. SageMaker dirancang untuk membuat analitik SQL lebih intuitif, fleksibel, dan dapat diakses oleh semua pengguna data.
Bagaimana saya bisa membagikan kueri SQL atau model data saya di SageMaker?
HAQM SageMaker Unified Studio (pratinjau) menyediakan "proyek" yang merupakan ruang kerja digital kolaboratif yang membantu tim mengatur dan mengelola pekerjaan analitik data mereka. Anggap saja seperti folder bersama tempat Anda dapat menyimpan kueri SQL, model data, kode, dan sumber daya lainnya di satu lokasi yang aman. Dengan membuat Proyek, Anda membangun lingkungan terpusat tempat anggota tim dapat diundang, diberi izin akses khusus, dan bekerja bersama secara leluasa. Dalam ruang ini, Anda dapat dengan mudah mendistribusikan Querybooks, yang menampung kueri dan model data Anda, dan memberikan akses ke sumber data, seperti HAQM S3 dan Redshift, dan menyediakan sumber daya komputasi bersama. Platform ini mendukung kontrol versi melalui integrasi Git, memungkinkan tim Anda melacak perubahan, berkolaborasi dalam kode, dan memelihara riwayat pekerjaan analitik SQL Anda yang jelas. Pendekatan ini memastikan bahwa semua anggota tim dapat melihat, mengedit, dan menjalankan kueri sambil mempertahankan keamanan dan konsistensi di seluruh beban kerja analitik SQL Anda.
Bagaimana model penetapan harga untuk analitik SQL di SageMaker?
Tidak ada biaya tambahan untuk menggunakan editor SQL di SageMaker. Anda hanya membayar untuk penggunaan mesin komputasi yang tersedia, seperti HAQM Athena dan HAQM Redshift.
Apa SLA untuk Analitik SQL di HAQM SageMaker?
Perjanjian Tingkat Layanan (SLA) Analitik SQL di HAQM SageMaker terkait langsung dengan SLA mesin SQL yang mendasarinya: HAQM Redshift dan HAQM Athena. Pelanggan dapat menemukan informasi komitmen layanan terperinci di halaman perjanjian tingkat layanan masing-masing untuk HAQM Redshift dan HAQM Athena.
Nirserver
Buka semuaApa itu HAQM Redshift Nirserver?
HAQM Redshift Nirserver adalah opsi nirserver dari HAQM Redshift yang membuat menjalankan dan menskalakan analitik lebih efisien dalam hitungan detik tanpa perlu menyiapkan dan mengelola infrastruktur gudang data. Dengan Redshift Nirserver, setiap pengguna—termasuk analis data, developer, profesional bisnis, dan ilmuwan data—bisa mendapatkan wawasan dari data hanya dengan memuat dan membuat kueri data di gudang data.
Bagaimana cara mulai HAQM Redshift Nirserver
Dengan hanya beberapa langkah dalam Konsol Manajemen AWS, Anda dapat memilih “konfigurasikan HAQM Redshift Nirserver” dan mulai mengkueri data. Anda dapat memanfaatkan contoh set data yang sudah dimuat, seperti data cuaca, data sensus, dan set data tolok ukur, sekaligus contoh kueri untuk segera memulai analitik. Anda dapat membuat basis data, skema, tabel, dan memuat data dari HAQM S3, pembagian data HAQM Redshift, atau memulihkan dari snapshot klaster yang disediakan Redshift yang sudah ada. Anda juga dapat langsung mengkueri data dalam format terbuka (seperti Parquet atau ORC) dalam danau data HAQM S3, atau data kueri dalam basis data operasional, seperti HAQM Aurora dan HAQM RDS PostgreSQL dan MySQL. Lihat Panduan Memulai.
Apa saja keuntungan menggunakan HAQM Redshift Nirserver?
Jika Anda tidak berpengalaman dalam manajemen gudang data, Anda tidak perlu khawatir untuk menyiapkan, mengatur konfigurasi, mengelola klaster, atau menyetel gudang. Anda bisa fokus ke menarik wawasan bermakna dari data Anda atau memberikan hasil bisnis inti Anda melalui data. Anda hanya membayar untuk apa yang Anda gunakan, sehingga biaya tetap terkendali. Anda terus mendapatkan manfaat dari semua performa terbaik HAQM Redshift, fitur-fitur SQL kaya, integrasi tanpa kendala dengan danau data dan gudang data operasional, dan analitik prediktif bawaan serta kemampuan berbagi data. Jika Anda perlu mengendalikan secara rinci gudang data Anda, Anda dapat menyediakan klaster Redshift.
Bagaimana cara HAQM Redshift Nirserver bekerja dengan layanan AWS lainnya?
Anda dapat terus menggunakan semua fungsionalitas analitik yang kaya dari HAQM Redshift, seperti penggabungan kompleks, kueri langsung ke data di danau data dan basis data operasional HAQM S3, tampilan terwujud, prosedur tersimpan, dukungan data semi-terstruktur, dan ML, serta sebagai performa tinggi dalam skala besar. Semua layanan terkait yang terintegrasi dengan HAQM Redshift (seperti HAQM Kinesis, AWS Lambda, HAQM QuickSight, HAQM SageMaker, HAQM EMR, AWS Lake Formation, dan AWS Glue) terus bekerja dengan HAQM Redshift Nirserver.
Kasus penggunaan apa yang dapat saya tangani dengan HAQM Redshift Nirserver?
Anda tetap dapat menjalankan semua kasus penggunaan analitik. Dengan alur kerja memulai yang sederhana, penskalaan otomatis, dan kemampuan untuk membayar sesuai penggunaan, pengalaman HAQM Redshift Nirserver sekarang membuatnya lebih efisien dan hemat untuk menjalankan lingkungan pengembangan dan pengujian yang harus dimulai cepat, analitik bisnis ad-hoc, beban kerja dengan kebutuhan komputasi yang berbeda dan tidak terprediksi, serta beban kerja intermiten atau sporadis.
Penyerapan dan pemuatan data
Buka semuaBagaimana cara memuat data ke gudang data HAQM Redshift saya?
Anda dapat memuat data ke HAQM Redshift dari berbagai sumber data termasuk HAQM S3, HAQM RDS, HAQM DynamoDB, HAQM EMR, AWS Glue, AWS Data Pipeline, dan atau host apa pun yang mendukung SSH pada HAQM EC2 atau on-premise. HAQM Redshift mencoba memuat data Anda secara paralel ke setiap simpul komputasi guna memaksimalkan tingkat di mana Anda dapat menyerap data ke dalam klaster gudang data Anda. Klien dapat tersambung ke HAQM Redshift menggunakan ODBC atau JDBC serta mengeluarkan perintah SQL ‘insert’ untuk menyisipkan data. Perlu diperhatikan bahwa ini lebih lambat dibanding menggunakan S3 atau DynamoDB karena metode tersebut memuat data secara paralel ke tiap simpul komputasi, sementara pernyataan insert SQL memuat data melalui simpul induk tunggal. Untuk detail selengkapnya tentang pemuatan data ke HAQM Redshift, baca Panduan Memulai kami.
Bagaimana salin otomatis Redshift berbeda dengan perintah salin?
Salin otomatis Redshift memberikan kemampuan untuk menyalin pernyataan secara otomatis dengan memantau folder HAQM S3 dan menyerap file baru tanpa intervensi pelanggan. Tanpa salin otomatis, pernyataan salin langsung memulai proses penyerapan file untuk file yang ada. Salin otomatis memperpanjang perintah menyalin yang ada dan memberikan kemampuan untuk 1/ proses penyerapan file otomatis dengan memantau jalur HAQM S3 tertentu untuk file baru, 2/ menggunakan kembali konfigurasi yang disalin, mengurangi keperluan untuk membuat dan menjalankan perintah menyalin baru untuk tugas penyerapan data berulang dan 3/ mengingat file yang dimuat untuk menghindari duplikasi data.
Bagaimana cara memulai salin otomatis Redshift?
Untuk memulai, pelanggan harus memiliki folder HAQM S3 yang dapat diakses dengan klaster Redshift/titik akhir nirserver mereka menggunakan IAM role yang terkait, dan membuat tabel Redshift untuk digunakan sebagai target. Setelah jalur HAQM S3 dan tabel Redshift sudah siap, pelanggan dapat membuat salinan pekerjaan dengan menggunakan perintah salin. Setelah salinan pekerjaan dibuat, Redshift akan mulai memantau jalur HAQM S3 yang ditentukan di belakang layar dan memulai perintah menyalin yang ditentukan pengguna untuk menyalin file baru ke tabel target secara otomatis.
Apa saja kasus penggunaan integrasi HAQM Redshift untuk Apache Spark?
Kasus penggunaan utamanya meliputi: 1/ Pelanggan menggunakan HAQM EMR dan AWS Glue untuk menjalankan pekerjaan di Apache Spark yang mengakses dan memuat data ke HAQM Redshift sebagai bagian dari penyerapan data dan pipeline transformasi (batch dan streaming) 2/ Pelanggan menggunakan HAQM SageMaker untuk menjalankan machine learning menggunakan Apache Spark dan harus mengakses data yang disimpan di HAQM Redshift untuk rekayasa fitur dan transformasi. 3/Pelanggan HAQM Athena menggunakan Apache Spark untuk menjalankan analisis interaktif pada data di HAQM Redshift.
Apa saja keuntungan integrasi HAQM Redshift untuk Apache Spark?
Baikal memberikan keuntungan berikut:
- Kemudahan penggunaan untuk memulai dan menjalankan aplikasi Apache Spark pada data di HAQM Redshift tanpa perlu khawatir tentang langkah-langkah manual yang terlibat untuk menyiapkan serta memelihara versi Spark yang tidak bersertifikat
- Kenyamanan dalam menggunakan Apache Spark dari berbagai layanan AWS seperti HAQM EMR, AWS Glue, HAQM Athena, dan HAQM SageMaker dengan HAQM Redshift dengan konfigurasi minimal
- Peningkatan peforma saat menjalankan aplikasi Apache Spark di HAQM Redshift
Kapan saya harus menggunakan HAQM Aurora Zero-ETL ke HAQM Redshift alih-alih Federated Querying?
Zero-ETL HAQM Aurora ke HAQM Redshift memungkinkan pelanggan HAQM Aurora dan HAQM Redshift untuk menjalankan analitik mendekati waktu nyata dan machine learning dalam petabita data transaksional dengan menawarkan solusi yang dikelola sepenuhnya untuk membuat data transaksional dari HAQM Aurora yang tersedia di HAQM Redshift dalam beberapa detik saat ditulis. Dengan Zero-ETL HAQM Aurora ke HAQM Redshift, pelanggan dapat dengan mudah memilih tabel HAQM Aurora yang memiliki data yang diinginkan untuk menganalisis HAQM Redshift, dan fitur mereplika skema dan data ke dalam HAQM Redshift dengan mulus. Hal ini mengurangi keharusan pelanggan untuk membuat dan mengatur pipeline data kompleks, sehingga mereka dapat fokus pada pengembangan aplikasi mereka. Dengan Zero-ETL HAQM Aurora ke HAQM Redshift, pelanggan dapat mereplikasi data dari beberapa klaster basis data HAQM Aurora ke instans HAQM Redshift yang sama untuk mendapatkan wawasan yang komprehensif di beberapa aplikasi, sekaligus menggabungkan inti aset analitik, yang menghemat banyak biaya dan efisiensi operasional. Dengan Zero-ETL HAQM Aurora ke HAQM Redshift, pelanggan juga dapat mengakses kemampuan analitik inti dan machine learning dari HAQM Redshift seperti tampilan terwujud, berbagi data, dan akses gabungan ke berbagai penyimpanan data dan danau data. Hal ini memungkinkan pelanggan untuk menggabungkan analitik mendekati waktu nyata dan inti untuk mendapatkan wawasan yang sensitif terhadap waktu yang memberi informasi keputusan bisnis secara efektif. Terlebih, pelanggan menggunakan HAQM Aurora untuk transaksi dan HAQM Redshift untuk analitik, jadi mereka tidak membagikan sumber daya komputasi, menghasilkan solusi yang berperforma baik dan stabil secara operasional.
Bagaimana HAQM Aurora Zero-ETL ke HAQM Redshift berkaitan/bekerja dengan layanan AWS lainnya?
Integrasi Nol-ETL HAQM Aurora dengan HAQM Redshift menawarkan integrasi yang lancar antara kedua layanan untuk analitik transaksional.
Bagaimana cara kerja Penyerapan Streaming?
Data streaming berbeda dengan tabel basis data tradisional di saat Anda membuat kueri stream, Anda menangkap evolusi relasi variasi waktu. Tabel, di sisi lain, menangkap snapshot titik waktu dari relasi variasi waktu. Pelanggan HAQM Redshift sudah terbiasa mengoperasikan tabel biasa dan menjalankan pemrosesan downstream (seperti transformasi) data menggunakan model batch tradisional, misalnya “ELT”. Kami menyediakan metode menggunakan Tampilan Terwujud (MV) Redshift sehingga pelanggan dapat dengan mudah mewujudkan titik waktu dari stream, seperti yang diakumulasikan saat dikuerikan, secepat mungkin untuk mendukung alur kerja ELT.
Berbagi data
Buka semuaApa saja kasus penggunaan untuk berbagi data?
Kasus penggunaan utama meliputi:
- Klaster ETL pusat berbagi data dengan banyak BI/klaster analitik untuk menyediakan isolasi beban kerja baca dan kemampuan penagihan opsional.
- Penyedia data berbagi data ke konsumen eksternal.
- Berbagi set data umum seperti pelanggan dan produk di beberapa grup bisnis berbeda dan berkolaborasi untuk analitik luas dan ilmu data.
- Desentralisasi gudang data untuk menyederhanakan manajemen.
- Berbagi data antara lingkungan pengembangan, pengujian, dan produksi.
- Mengakses data Redshift dari layanan analitik AWS lain.
Apa yang dimaksud dengan kueri lintas basis data di HAQM Redshift?
Dengan kueri basis data silang, Anda dapat dengan lancar membuat kueri dan menggabungkan data dari basis data Redshift mana pun yang aksesnya Anda miliki, terlepas dari basis data mana yang terhubung dengan Anda. Ini dapat termasuk lokal basis data pada kluster dan juga set data bersama yang dibuat tersedia dari kluster jarak jauh. Kueri basis data silang memberi Anda fleksibilitas untuk menyusun basis data terpisah guna mendukung konfigurasi multi-penyewa.
Siapa pengguna utama AWS Data Exchange?
AWS Data Exchange membuat pertukaran dan penggunaan data pihak ketiga di AWS menjadi lebih efisien bagi pelanggan AWS. Analis data, manajer produk, manajer portfolio, ilmuwan data, analis kuantitatif, teknisi percobaan klinis, dan developer di hampir setiap industri menginginkan akses ke lebih banyak data untuk mendorong analitik, melatih model ML, dan membuat keputusan yang berdasarkan data. Namun, tidak ada satu tempat untuk menemukan data dari beberapa penyedia dan tidak ada konsistensi terkait cara penyedia memberikan data, sehingga mereka terpaksa menggunakan media fisik yang terpisah, kredensial FTP, dan panggilan API yang dipesan. Sebaliknya, banyak organisasi ingin membuat data mereka tersedia untuk tujuan penelitian atau komersial, namun terlalu sulit dan mahal untuk membangun dan mempertahankan pengiriman data, hak, dan teknologi penagihan, yang semakin menekan suplai data berharga.
Skalabilitas dan konkurensi
Buka semuaBagaimana cara menskalakan ukuran dan performa klaster gudang data HAQM Redshift saya?
HAQM Redshift Nirserver secara otomatis menyediakan kapasitas gudang data dan menskalakan sumber daya yang mendasarinya secara cerdas. HAQM Redshift Nirserver menyesuaikan kapasitas dalam hitungan detik untuk memberikan performa tinggi secara konsisten dan menyederhanakan operasi bahkan untuk beban kerja yang paling berat dan fluktuatif sekalipun. Dengan fitur Penskalaan Konkurensi, Anda dapat mendukung pengguna konkuren dan kueri konkuren yang tidak terbatas, dengan performa kueri yang cepat secara konsisten. Saat penskalaan konkurensi diaktifkan, HAQM Redshift secara otomatis menambahkan kapasitas klaster saat klaster Anda mengalami peningkatan dalam antrean kueri.
Untuk penskalaan manual, jika ingin meningkatkan performa kueri atau merespons penggunaan CPU, memori, atau I/O berlebih, Anda dapat meningkatkan jumlah simpul di dalam klaster gudang data menggunakan Elastic Resize melalui Konsol Manajemen AWS atau API ModifyCluster. Saat Anda mengubah klaster gudang data, perubahan yang Anda minta akan segera diterapkan. Metrik untuk pemanfaatan komputasi, pemanfaatan penyimpanan, dan lalu lintas baca/tulis ke klaster gudang data Redshift Anda tersedia secara gratis melalui Konsol Manajemen AWS atau API HAQM CloudWatch. Anda juga dapat menambahkan metrik yang ditentukan pengguna melalui fungsi metrik kustom HAQM CloudWatch.
Dengan HAQM Redshift Spectrum, Anda dapat menjalankan beberapa klaster Redshift yang mengakses data yang sama dalam HAQM S3. Anda dapat menggunakan klaster berbeda untuk kasus penggunaan berbeda. Misalnya, Anda dapat menggunakan satu klaster untuk pelaporan standar dan klaster lain untuk kueri ilmu data. Tim pemasaran Anda dapat menggunakan klaster mereka sendiri yang berbeda dari tim operasi Anda. Redshift Spectrum secara otomatis mendistribusikan eksekusi kueri ke beberapa pekerja Redshift Spectrum dari kumpulan sumber daya bersama untuk membaca dan memproses data dari HAQM S3, lalu mengembalikan hasilnya ke klaster Redshift untuk pemrosesan yang tersisa.
Apakah klaster gudang data saya akan tetap tersedia selama penskalaan?
Tergantung. Saat Anda menggunakan fitur Penskalaan Konkurensi, klaster tersedia sepenuhnya untuk baca dan tulis selama penskalaan konkurensi. Dengan Pengubahan ukuran elastis, klaster tidak tersedia selama empat hingga delapan menit dari waktu pengubahan ukuran. Dengan elastisitas penyimpanan RA3 Redshift dalam penyimpanan terkelola, klaster tersedia sepenuhnya dan data dipindahkan secara otomatis antara penyimpanan terkelola dan simpul komputasi.
Apa itu Elastic Resize dan apa perbedaannya dengan Concurrency Scaling?
Perubahan Ukuran Elastis menambahkan atau menghapus simpul dari klaster Redshift tunggal dalam hitungan menit untuk mengelola throughput kuerinya. Misalnya, beban kerja ETL untuk beberapa jam tertentu dalam sehari atau pelaporan akhir bulan mungkin memerlukan sumber daya HAQM Redshift tambahan untuk diselesaikan tepat waktu. Penskalaan Konkurensi menambahkan sumber daya klaster tambahan untuk meningkatkan keseluruhan konkurensi kueri.
Dapatkah saya mengakses klaster Penskalaan Konkurensi secara langsung?
Tidak. Penskalaan Konkurensi merupakan kumpulan besar sumber daya HAQM Redshift yang dapat diskalakan dan pelanggan tidak memiliki akses langsung.
Keamanan
Buka semuaBagaimana cara HAQM Redshift mengamankan data saya?
HAQM Redshift mendukung keamanan yang terkemuka di industri dengan manajemen dan federasi identitas untuk masuk tunggal (SSO), autentikasi multi-faktor, kontrol akses tingkat kolom, keamanan tingkat baris, kontrol akses berbasis peran, dan HAQM Virtual Private Cloud (HAQM VPC) bawaan. Dengan HAQM Redshift, data Anda dienkripsi dengan diam dan bergerak. Semua fitur keamanan HAQM Redshift ditawarkan secara unik tanpa biaya tambahan untuk memenuhi persyaratan keamanan, privasi, dan kepatuhan. Anda mendapatkan manfaat AWS yang mendukung lebih banyak standar keamanan dan sertifikasi kepatuhan dibandingkan penyedia lainnya, termasuk ISO 27001, SOC, HIPAA/HITECH, dan FedRAMP.
Apakah Redshift mendukung kontrol akses terperinci?
Ya, HAQM Redshift menyediakan dukungan bagi kontrol akses berbasis peran. Kontrol akses tingkat baris memungkinkan Anda untuk menetapkan satu atau beberapa peran ke pengguna, dan menetapkan izin sistem dan objek berdasarkan peran. Anda dapat menggunakan peran sistem unik–pengguna root, dba, operator, dan admin keamanan, atau membuat peran Anda sendiri.
Apakah HAQM Redshift mendukung pengaburan data atau tokenisasi data?
Fungsi AWS Lambda yang ditetapkan pengguna (UDF) memungkinkan Anda menggunakan fungsi AWS Lambda sebagai UDF di HAQM Redshift dan memanggilnya dari kueri Redshift SQL. Fungsi ini memungkinkan Anda menulis ekstensi kustom untuk kueri SQL Anda guna mencapai integrasi yang lebih erat dengan layanan atau produk pihak ketiga lainnya. Anda dapat menulis Lambda UDF untuk mengaktifkan tokenisasi eksternal, masking data, identifikasi atau deidentifikasi data melalui integrasi dengan vendor seperti Protegrity, dan melindungi atau tidak melindungi data sensitif berdasarkan izin dan grup pengguna, dalam waktu kueri.
Dengan dukungan untuk masking data dinamis, pelanggan dapat dengan mudah melindungi data sensitif dan akses granular mereka dengan mengelola kebijakan Masking Data. Anggaplah Anda memiliki aplikasi yang memiliki banyak pengguna dan objek dengan data sensitif yang tidak dapat diekspos ke semua pengguna. Anda memiliki persyaratan untuk memberikan tingkat keamanan granular berbeda yang ingin Anda berikan kepada grup pengguna yang berbeda. Masking Data Dinamis Redshift dapat dikonfigurasi untuk memungkinkan pelanggan menentukan nilai data yang di-masking yang konsisten, mempertahankan format, dan tidak dapat diubah. Setelah fiturnya menjadi GA, Anda segera mulai menggunakannya. Admin keamanan dapat membuat dan menerapkan kebijakan hanya dengan beberapa perintah.
Apakah HAQM Redshift mendukung masuk tunggal?
Ya. Pelanggan yang ingin menggunakan penyedia identitas perusahaan mereka seperti Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate, atau penyedia identitas lainnya yang tunduk pada SAML dapat mengonfigurasi HAQM Redshift untuk menyediakan masuk tunggal. Anda dapat masuk ke klaster HAQM Redshift dengan identitas Microsoft Azure Active Directory (AD). Tindakan ini memungkinkan Anda untuk masuk ke Redshift tanpa menduplikasi identitas Azure Active Directory di Redshift.
Apakah HAQM Redshift mendukung autentikasi multi-faktor (MFA)?
Ya. Anda dapat menggunakan autentikasi multi-faktor (MFA) untuk keamanan tambahan saat melakukan autentikasi ke klaster HAQM Redshift.
Ketersediaan dan ketahanan
Buka semuaApa yang terjadi pada ketersediaan klaster gudang data dan ketahanan data saya jika terjadi kegagalan simpul individual?
HAQM Redshift secara otomatis akan mendeteksi dan mengganti simpul yang gagal dalam klaster gudang data Anda. Pada klaster Komputasi Padat (DC) dan Penyimpanan Padat (DS2), data disimpan pada simpul komputasi untuk memastikan ketahanan data tinggi. Saat suatu simpul diganti, data disegarkan dari salinannya di simpul lain. Klaster RA3 dan Redshift nirserver tidak terdampak dengan cara yang sama karena data disimpan dalam HAQM S3 dan drive lokal hanya digunakan sebagai cache data. Klaster gudang data tidak akan tersedia untuk kueri dan pembaruan hingga simpul pengganti disediakan dan ditambahkan ke DB. HAQM Redshift segera menyediakan simpul pengganti Anda dan memuat data Anda yang paling sering diakses dari HAQM S3 terlebih dahulu agar memungkinkan Anda melanjutkan kueri data secepat mungkin. Klaster simpul tunggal tidak mendukung replikasi data. Jika terjadi kegagalan drive, Anda harus memulihkan klaster dari snapshot di S3. Kami menyarankan penggunaan setidaknya dua simpul untuk produksi.
Apa yang terjadi pada ketersediaan klaster gudang data dan ketahanan data saya jika Zona Ketersediaan (AZ) klaster gudang data mengalami pemadaman?
Jika gudang data HAQM Redshift Anda adalah deployment AZ tunggal dan Zona Ketersediaan klaster menjadi tidak tersedia, maka HAQM Redshift akan secara otomatis memindahkan klaster Anda ke Zona Ketersediaan (AZ) AWS lainnya tanpa kehilangan data atau mengubah aplikasi. Untuk mengaktifkan ini, Anda harus mengaktifkan kemampuan relokasi di pengaturan konfigurasi klaster Anda.
Mengapa saya harus menggunakan deployment Multi-AZ Redshift?
Tidak seperti deployment AZ tunggal, pelanggan kini dapat meningkatkan ketersediaan Redshift dengan menjalankan gudang data mereka dalam deployment multi-AZ. Deployment multi-AZ memungkinkan Anda menjalankan gudang data Anda di beberapa Zona Ketersediaan (AZ) AWS secara bersamaan dan terus beroperasi dalam skenario kegagalan yang tidak terduga. Tidak diperlukan perubahan aplikasi untuk mempertahankan kelangsungan bisnis karena deployment Multi-AZ dikelola sebagai gudang data tunggal dengan satu titik akhir. Deployment multi-AZ mengurangi waktu pemulihan dengan menjamin kapasitas pulih secara otomatis dan ditujukan untuk pelanggan dengan aplikasi analitik penting bisnis yang memerlukan tingkat ketersediaan dan ketahanan tertinggi terhadap kegagalan AZ. Hal ini juga memungkinkan pelanggan menerapkan solusi yang lebih sesuai dengan rekomendasi Pilar Keandalan dari Kerangka Kerja AWS Well-Architected. Untuk mempelajari selengkapnya tentang Multi-AZ HAQM Redshift, lihat di sini.
Apa itu RPO dan RTO? RPO dan RTO apa yang didukung dengan deployment Multi-AZ?
RPO adalah singkatan dari Sasaran Titik Pemulihan (RPO) dan merupakan istilah untuk menggambarkan jaminan kebaruan data jika terjadi kegagalan. RPO adalah jumlah waktu maksimum yang dapat diterima sejak titik pemulihan data terakhir. Hal ini menentukan apa yang dianggap sebagai kehilangan data yang dapat diterima antara titik pemulihan terakhir dan gangguan layanan. Multi-AZ Redshift mendukung RPO = 0, yang berarti data dijamin terkini dan terbaru jika terjadi kegagalan. Pengujian pra-peluncuran kami menemukan bahwa RTO dengan deployment Multi-AZ HAQM Redshift berdurasi kurang dari 60 detik atau kurang jika terjadi kegagalan AZ.
Bagaimana perbandingan Multi-AZ Redshift dengan fitur Relokasi Redshift yang ada?
Relokasi Redshift diaktifkan secara default di semua klaster RA3 baru dan titik akhir nirserver, yang memungkinkan gudang data dimulai ulang di AZ lain jika terjadi pemahaman skala besar, tanpa kehilangan data atau biaya tambahan. Meskipun penggunaan Relokasi gratis, batasannya adalah bahwa ini merupakan upaya pendekatan terbaik yang tunduk pada ketersediaan sumber daya di AZ yang sedang dipulihkan dan Sasaran Waktu Pemulihan (RTO) dapat dipengaruhi oleh masalah lain yang terkait dengan memulai klaster baru. Hal ini dapat mengakibatkan waktu pemulihan antara 10 hingga 60 menit. Multi-AZ Redshift mendukung persyaratan ketersediaan tinggi dengan memberikan RTO yang diukur dalam hitungan detik dan menawarkan jaminan pengoperasian yang berkelanjutan karena tidak akan tunduk pada batasan kapasitas atau potensi masalah lain dalam membuat klaster baru.
Kueri dan analitik
Buka semuaApakah HAQM Redshift dan Redshift Spectrum kompatibel dengan paket perangkat lunak kecerdasan bisnis dan alat ETL pilihan saya?
Ya, HAQM Redshift menggunakan SQL standar industri dan diakses menggunakan driver JDBC dan ODBC standar. Anda dapat mengunduh driver JDBC dan ODBC kustom HAQM Redshift dari tab Connect Client dari Konsol Redshift. Kami telah memvalidasi integrasi dengan vendor BI dan ETL populer, beberapa di antaranya menawarkan uji coba gratis untuk membantu Anda mulai memuat dan menganalisis data. Anda juga dapat membuka AWS Marketplace untuk melakukan deployment dan mengonfigurasi solusi yang didesain untuk bekerja dengan HAQM Redshift dalam hitungan menit.
HAQM Redshift Spectrum mendukung semua alat klien HAQM Redshift. Alat klien dapat terus terhubung ke endpoint klaster HAQM Redshift menggunakan koneksi ODBC dan JDBC. Tidak ada perubahan yang diperlukan.
Anda menggunakan sintaksis kueri yang benar-benar sama dan memiliki kemampuan kueri yang sama untuk mengakses tabel di Redshift Spectrum seperti Anda miliki untuk tabel dalam penyimpanan lokal klaster Redshift Anda. Tabel eksternal direferensikan menggunakan nama skema yang ditentukan dalam perintah CREATE EXTERNAL SCHEMA di mana tabel tersebut terdaftar.
Apa saja format data dan format kompresi yang didukung HAQM Redshift Spectrum?
HAQM Redshift Spectrum saat ini mendukung banyak format data sumber terbuka, termasuk Avro, CSV, Grok, HAQM Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, dan TSV.<br>HAQM Redshift Spectrum saat ini mendukung kompresi Gzip serta Snappy.
Apa yang terjadi jika tabel dalam penyimpanan lokal saya memiliki nama yang sama seperti tabel eksternal?
Sama seperti tabel lokal, Anda dapat menggunakan nama skema untuk memilih tabel yang Anda maksud dengan menggunakan schema_name.table_name di dalam kueri Anda.
Saya menggunakan Hive Metastore untuk menyimpan metadata tentang danau data S3. Dapatkah saya menggunakan Redshift Spectrum?
Ya. Perintah CREATE EXTERNAL SCHEMA mendukung Hive Metastore. Kami saat ini belum mendukung DDL terhadap Hive Metastore.
Bagaimana cara mendapatkan daftar semua tabel basis data eksternal yang dibuat di klaster saya?
Anda dapat membuat kueri tabel sistem SVV_EXTERNAL_TABLES untuk memperoleh informasi tersebut.
Apakah Redshift mendukung kemampuan menggunakan Machine Learning dengan SQL?
Ya, fitur HAQM Redshift ML memudahkan pengguna SQL membuat, melatih, dan men-deploy model machine learning (ML) menggunakan perintah SQL yang lazim. HAQM Redshift ML memungkinkan Anda untuk memanfaatkan data di HAQM Redshift dengan HAQM SageMaker, layanan machine learning yang dikelola sepenuhnya. HAQM Redshift mendukung pembelajaran yang tidak diawasi (K-Means) dan pembelajaran yang diawasi (algoritma Autopilot, XGBoost, MLP). Anda juga dapat menggunakan layanan AI Bahasa AWS untuk menerjemahkan, menyusun, dan menganalisis bidang teks di kueri SQL dengan fungsi Lambda UDF yang sudah dibangun sebelumnya - lihat postingan blog.
Apakah HAQM Redshift menyediakan API untuk mengueri data?
HAQM Redshift menyediakan API Data yang dapat Anda gunakan untuk mengakses data dengan mudah dari HAQM Redshift dengan semua tipe aplikasi berbasis layanan web nirserver dan didorong peristiwa yang bersifat tradisional, cloud-native, serta dalam kontainer. API Data menyederhanakan akses ke HAQM Redshift karena Anda tidak perlu mengatur konfigurasi driver dan mengelola koneksi basis data. Sebagai gantinya, Anda dapat menjalankan perintah SQL ke kluster HAQM Redshift dengan cukup memanggil endpoint API aman yang disediakan oleh API Data. API Data menangani pengelolaan koneksi basis data dan buffering data. API Data bersifat asinkron, sehingga Anda dapat mengambil hasilnya nanti. Hasil kueri Anda disimpan selama 24 jam.
Tipe kredensial apa yang dapat saya gunakan dengan API Data HAQM Redshift?
API Data mendukung kredensial IAM dan menggunakan kunci rahasia dari AWS Secrets Manager. API Data menggabungkan kredensial AWS Identity and Access Management (IAM) agar Anda dapat menggunakan penyedia identitas seperti Okta atau Azure Active Directory atau kredensial basis data yang disimpan di Secrets Manager tanpa meneruskan kredensial basis data di panggilan API.
Dapatkah saya menggunakan API Data HAQM Redshift dari AWS CLI?
Ya, Anda dapat menggunakan API Data dari AWS CLI dengan menggunakan opsi perintah aws redshift-data.
Apakah API Data Redshift terintegrasi dengan layanan AWS lainnya?
Anda dapat menggunakan API Data dari layanan lainnya seperti AWS Lambda, AWS Cloud9, AWS AppSync, dan HAQM EventBridge.
Apakah saya harus membayar secara terpisah untuk penggunaan API Data HAQM Redshift?
Tidak, tidak ada biaya terpisah untuk menggunakan API Data.
Integrasi Nol-ETL
Buka semuaApa itu nol-ETL?
Nol-ETL adalah sekumpulan integrasi yang dikelola sepenuhnya oleh AWS yang menghilangkan atau meminimalkan kebutuhan untuk membangun pipeline data extract, transform, and load (ETL). Nol-ETL membuat data tersedia di SageMaker Lakehouse dan HAQM Redshift dari berbagai sumber operasional, sumber transaksional, dan aplikasi perusahaan. ETL adalah proses menggabungkan, membersihkan, dan menormalkan data dari berbagai sumber untuk menyiapkannya untuk analitik, AI, dan beban kerja ML. Proses ETL tradisional menyita waktu dan kompleks untuk dikembangkan, dipelihara, dan diskalakan. Sebaliknya, integrasi nol-ETL memfasilitasi pergerakan data titik ke titik tanpa perlu membuat dan mengoperasikan alur data ETL.
Buka Apa itu nol-ETL? untuk mempelajari selengkapnya.
Tantangan ETL apa yang dipecahkan oleh integrasi nol-ETL?
Integrasi nol-ETL memecahkan banyak tantangan pergerakan data yang ada dalam proses ETL tradisional, termasuk:
- Peningkatan kompleksitas sistem karena aturan pemetaan data yang rumit, penanganan kesalahan, dan persyaratan keamanan
- Biaya tambahan dari meningkatnya volume data, peningkatan infrastruktur, dan pemeliharaan
- Waktu tertunda untuk analitik, AI, dan ML karena pengembangan dan deployment kode khusus, menyebabkan peluang yang terlewatkan untuk kasus penggunaan waktu nyata.
Apa saja manfaat dari nol-ETL?
- Peningkatan kelincahan: nol-ETL menyederhanakan arsitektur data dan mengurangi upaya rekayasa data. Hal ini memungkinkan penyertaan sumber data baru tanpa perlu memproses ulang sejumlah besar data. Fleksibilitas ini meningkatkan ketangkasan, yang mendukung pengambilan keputusan berbasis data dan inovasi yang cepat.
- Efisiensi biaya: Nol-ETL menggunakan teknologi integrasi data yang bersifat cloud-native dan dapat diskalakan sehingga memungkinkan bisnis untuk mengoptimalkan biaya berdasarkan penggunaan aktual dan kebutuhan pemrosesan data. Organisasi mengurangi biaya infrastruktur, upaya pengembangan, dan biaya pemeliharaan.
- Waktu singkat menuju wawasan: Proses ETL tradisional sering kali melibatkan pembaruan batch berkala, yang mengakibatkan ketersediaan data tertunda. Di sisi lain, integrasi nol-ETL menyediakan akses data hampir waktu nyata yang membantu menyediakan data untuk analitik, AI/ML, dan pelaporan yang terbaru. Anda mendapatkan wawasan yang lebih akurat dan tepat waktu untuk kasus penggunaan, seperti dasbor waktu nyata, pengalaman bermain game yang dioptimalkan, pemantauan kualitas data, dan analisis perilaku pelanggan. Organisasi dapat membuat prediksi berbasis data dengan lebih percaya diri, meningkatkan pengalaman pelanggan, dan mempromosikan wawasan berbasis data di seluruh bisnis.
Apa integrasi nol-ETL yang tersedia dari AWS saat ini?
Di re:Invent 2024, kami akan mengumumkan empat integrasi nol-ETL berikut:
- HAQM SageMaker Lakehouse dan HAQM Redshift mendukung integrasi nol-ETL dari aplikasi
- Integrasi nol-ETL HAQM DynamoDB dengan HAQM SageMaker Lakehouse
- Integrasi nol-ETL HAQM OpenSearch Service dengan Log HAQM CloudWatch
- Integrasi nol-ETL HAQM OpenSearch Service dengan HAQM Security Lake
Sejak peluncuran integrasi nol-ETL, kami telah memperkenalkan tujuh integrasi:
- Integrasi nol-ETL HAQM Aurora MySQL dengan HAQM Redshift
- Integrasi nol-ETL HAQM Aurora PostgreSQL dengan HAQM Redshift
- HAQM Relational Database Service (HAQM RDS) untuk integrasi nol-ETL MySQL dengan HAQM Redshift
- Integrasi nol-ETL HAQM DynamoDB dengan HAQM OpenSearch Service
- Integrasi nol-ETL HAQM DocumentDB dengan HAQM OpenSearch Service
- Integrasi nol-ETL HAQM OpenSearch Service dengan HAQM Simple Storage Service (HAQM S3)
- Integrasi nol-ETL HAQM DynamoDB dengan HAQM Redshift
Bagaimana model penetapan harga untuk nol-ETL?
Untuk mempelajari selengkapnya tentang harga, kunjungi halaman harga HAQM Redshift, AWS Glue, dan SageMaker Lakehouse.
Di mana saya dapat mempelajari selengkapnya tentang nol-ETL dan fitur baru ini?
Untuk mempelajari selengkapnya tentang nol-ETL, kunjungi Apa itu nol-ETL?
Bagaimana perubahan skema ditangani dengan integrasi nol-ETL?
Berikut adalah beberapa poin penting tentang cara menangani perubahan skema:
- Pernyataan DDL, seperti CREATE TABLE, ALTER TABLE, DROP TABLE, dan seterusnya direplikasi secara otomatis dari Aurora ke HAQM Redshift.
- Integrasi ini melakukan pemeriksaan dan penyesuaian yang diperlukan dalam tabel HAQM Redshift untuk perubahan skema yang direplikasi. Misalnya, menambahkan kolom di Aurora akan menambahkan kolom di HAQM Redshift.
- Replikasi dan perubahan skema secara otomatis terjadi secara waktu nyata dengan jeda minimal antara basis data sumber dan target.
- Konsistensi skema dipertahankan bahkan ketika perubahan DML terjadi secara paralel dengan perubahan DDL.
Bagaimana cara menjalankan transformasi pada data saya menggunakan integrasi nol-ETL?
Anda dapat membuat tampilan terwujud di basis data HAQM Redshift lokal Anda untuk mentransformasikan data yang direplikasi melalui integrasi nol-ETL. Hubungkan ke basis data lokal Anda dan gunakan kueri lintas basis data untuk mengakses basis data tujuan. Anda dapat menggunakan nama objek yang sepenuhnya memenuhi syarat dengan notasi tiga bagian (destination-database-name.schema-name.table-name) atau membuat skema eksternal yang mereferensikan basis data tujuan dan pasangan skema serta menggunakan notasi dua bagian (external-schema-name.table-name).
Pencadangan dan pemulihan
Buka semuaBagaimana cara HAQM Redshift mencadangkan data saya? Bagaimana cara memulihkan klaster dari cadangan?
Klaster HAQM Redshift RA3 dan HAQM Redshift Nirserver menggunakan Penyimpanan Terkelola Redshift, yang selalu memiliki salinan terbaru data yang tersedia. Klaster DS2 dan DC2 membuat salinan data pada klaster untuk memastikan salinan terbaru tersedia jika terjadi kegagalan. Cadangan otomatis dibuat pada semua tipe klaster Redshift serta dipertahankan selama 24 jam, dan pada nirserver disediakan titik pemulihan untuk 24 jam terakhir
Anda juga dapat membuat cadangan Anda sendiri yang dapat dipertahankan selamanya. Cadangan ini dapat dibuat kapan saja, dan cadangan otomatis HAQM Redshift atau titik pemulihan HAQM Redshift Nirserver dapat dikonversikan ke dalam cadangan pengguna untuk retensi yang lebih lama.
HAQM Redshift dapat juga mereplika snapshot Anda secara tidak sinkron ke HAQM S3 dalam Wilayah lain untuk pemulihan bencana.
Pada klasyer DS2 atau DC2, penyimpanan cadangan gratis terbatas pada total ukuran penyimpanan di simpul dalam klaster gudang data dan hanya berlaku untuk klaster gudang data aktif.
Misalnya, jika Anda memiliki total penyimpanan gudang data sebesar 8 TB, kami akan memberikan paling banyak 8 TB penyimpanan cadangan tanpa biaya tambahan. Jika ingin memperpanjang periode retensi cadangan lebih dari satu hari, Anda dapat melakukannya menggunakan Konsol Manajemen AWS atau API HAQM Redshift. Untuk informasi selengkapnya tentang snapshot otomatis, silakan baca Panduan Pengelolaan HAQM Redshift.
HAQM Redshift hanya mencadangkan data yang berubah, sehingga sebagian besar snapshot hanya menggunakan sedikit ruang penyimpanan cadangan yang tersisa. Saat Anda perlu memulihkan cadangan, Anda memiliki akses ke semua cadangan otomatis dalam periode retensi cadangan Anda. Setelah Anda memilih dari cadangan mana Anda memulihkan, kami akan menyediakan klaster gudang data baru dan kemudian memulihkan data Anda ke dalamnya.
Bagaimana cara mengelola retensi cadangan dan snapshot otomatis saya?
Anda dapat menggunakan Konsol Manajemen AWS atau API ModifyCluster untuk mengelola periode waktu pencadangan otomatis dipertahankan dengan memodifikasi parameter RetentionPeriod. Jika Anda ingin menonaktifkan pencadangan otomatis seluruhnya, Anda dapat mengatur periode retensi ke 0 (tidak disarankan).
Apa yang terjadi pada cadangan saya jika saya menghapus klaster gudang data?
Saat Anda menghapus klaster gudang data, Anda memiliki kemampuan untuk menentukan apakah snapshot akhir dibuat saat penghapusan. Hal ini memungkinkan pemulihan klaster gudang data yang telah dihapus di kemudian hari. Semua snapshot manual yang dibuat sebelumnya dari klaster gudang data Anda akan dipertahankan dan dikenai tarif HAQM S3 standar, kecuali jika Anda memilih untuk menghapusnya.
Pemantauan dan pemeliharaan
Buka semuaBagaimana cara memantau performa klaster gudang data HAQM Redshift saya?
Metrik untuk pemanfaatan komputasi, pemanfaatan penyimpanan, dan lalu lintas baca/tulis ke klaster gudang data HAQM Redshift Anda tersedia secara gratis melalui Konsol Manajemen AWS atau API HAQM CloudWatch. Anda juga dapat menambahkan metrik tambahan yang ditentukan pengguna melalui fungsi metrik kustom HAQM CloudWatch. Konsol Manajemen AWS menyediakan dasbor pemantauan yang membantu Anda memantau status dan performa seluruh klaster Anda. HAQM Redshift juga menyediakan informasi mengenai kueri dan kinerja klaster melalui Konsol Manajemen AWS. Informasi ini memungkinkan Anda melihat pengguna dan kueri mana yang paling banyak menggunakan sumber daya sistem untuk mendiagnosis masalah kinerja dengan melihat statistik rencana serta eksekusi kueri. Selain itu, Anda dapat melihat pemanfaatan sumber daya pada tiap simpul komputasi untuk memastikan bahwa Anda memiliki data dan kueri yang seimbang di semua simpul.
Apa itu periode pemeliharaan? Apakah klaster gudang data saya akan tersedia selama pemeliharaan perangkat lunak?
HAQM Redshift secara periodik melakukan pemeliharaan untuk menerapkan perbaikan, peningkatan, dan fitur baru pada klaster Anda. Anda dapat mengubah periode pemeliharaan terjadwal dengan mengubah klaster, baik secara terprogram atau dengan menggunakan Konsol Redshift. Selama periode pemeliharaan ini, klaster HAQM Redshift Anda tidak akan tersedia untuk operasi normal. Untuk informasi selengkapnya mengenai periode pemeliharaan dan jadwal berdasarkan Wilayah, baca Periode Pemeliharaan dalam Panduan Pengelolaan HAQM Redshift.