عام
لاكتشاف ما هو جديد مع HAQM Redshift، يُمكنك زيارة صفحة كل ما هو جديد.
للاطلاع على المزيد من المعلومات التفصيلية وإرشادات الاستخدام، تفضل بزيارة الوثائق.
س: ما المقصود بـ HAQM Redshift؟
يستخدم عشرات الآلاف من العملاء HAQM Redshift كل يوم لتشغيل تحليلات SQL في السحابة، حيث يقوم بمعالجة وحدات إكسابايت من البيانات بهدف استخلاص رؤى أعمال. سواءً كانت بياناتك المتنامية مخزنةً في مخازن البيانات التشغيلية، أو مخازن البيانات، أو خدمات تدفق البيانات، أو مجموعات بيانات تابعة لأطراف خارجية، فإن HAQM Redshift يساعدك في الوصول إلى البيانات ودمجها ومشاركتها بطريقة آمنة وبأقل حد من الحركة أو النسخ. يتكامل HAQM Redshift تمامًا مع خدمات قواعد البيانات والتحليلات وتعلّم الآلة من AWS بهدف استخدام نُهُج Zero-ETL أو لمساعدتك في الوصول إلى البيانات الموجودة للحصول على تحليلات في الوقت الفعلي تقريبًا، وبناء نماذج تعلّم الآلة في SQL، وتمكين تحليلات Apache Spark باستخدام البيانات في Redshift. يُمكّن HAQM Redshift Serverless المهندسين والمطورين وعلماء البيانات والمحللين من البدء بسهولة وتوسعة نطاق التحليلات بسرعة في بيئة تتسم بخلوها من المهام الإدارية. بفضل محرك المعالجة المتوازية على نطاق واسع (MPP) وبنيتها التي تفصل بين الحوسبة والتخزين للحصول على كفاءة التوسع، والابتكارات في الأداء المدفوعة بتعلم الآلة (على سبيل المثال: طرق العرض التلقائية المادية)، تم تصميم HAQM Redshift لتحقيق التوسّع في النطاق ولتوفير أداء بسعر أفضل بمعدل 5 أضعاف مقارنةً بمستودعات البيانات السحابية الأخرى.
س: ما أهم الأسباب التي تجعل العملاء يختارون HAQM Redshift؟
يختار آلاف العملاء HAQM Redshift من أجل تسريع الوقت الذي يحصلون خلاله على الرؤى؛ وذلك لأنه نظام تحليلات قوي يتكامل جيدًا مع خدمات قواعد البيانات وتعلّم الآلة، بجانب أنه سهل الاستخدام ويمكن أن يصبح خدمةً مركزيةً تقدم لهم جميع احتياجاتهم من التحليلات. يوفر HAQM Redshift Serverless سعة مستودع بيانات ويوسّع هذه السعة تلقائيًا للحصول على أداء عالٍ لأعباء العمل كثيرة المتطلبات وغير المتوقعة. يقدم HAQM Redshift أداءً تسعيريًا رائدًا في مختلف أعباء عمل التحليلات، سواءً كان عبء العمل من نوعية إعداد لوحات المعلومات، أو تطوير التطبيقات، أو مشاركة البيانات، أو مهام ETL (الاستخراج والتحويل والتحميل) أو العديد من المهام الأخرى. ومع قيام عشرات الآلاف من العملاء بتشغيل التحليلات على وحدات تيرابايت وبيتابايت من البيانات، يعمل HAQM Redshift على تحسين أداء أعباء عمل للعملاء في العالم الحقيقي، استنادًا إلى قياس أداء الأسطول عن بُعد، ويوفر أداءً يتوسّع خطيًا حسب عبء العمل، مع الحفاظ على انخفاض التكاليف. ابتكارات الأداء متاحة للعملاء بدون أي تكلفة إضافية. يتيح HAQM Redshift لك الحصول على الرؤى من خلال تشغيل التحليلات في الوقت الفعلي والتحليلات التنبؤية على جميع بياناتك في قواعد البيانات التشغيلية، ومخزن البيانات، ومستودع البيانات، وبيانات البث، ومجموعات البيانات التابعة لأطراف خارجية. يدعم HAQM Redshift أمانًا رائدًا حيث إنه يتضمن إدارة هويات واتحاد هويات من أجل تسجيل الدخول الأحادي، والمصادقة متعددة العوامل، والتحكم في الوصول على مستوى العمود، والأمان على مستوى الصف، والتحكم في الوصول المستند إلى الدور، وHAQM Virtual Private Cloud (HAQM VPC)، وتغيير حجم المجموعة بطريقة أسرع.
س: كيف يسهِّل HAQM Redshift إدارة مستودعات البيانات وإدارة التحليلات؟
يُدار HAQM Redshift بالكامل بواسطة AWS، ولذا لا تقلق بشأن مهام إدارة مستودعات البيانات مثل توفير الأجهزة، وتصحيح البرامج، والإعداد، والتكوين، وعُقد المراقبة، ومحركات الأقراص للتعافي من حالات الفشل، أو النُسَخ الاحتياطية. تدير AWS نيابةً عنك العمل اللازم لإعداد مستودع البيانات وتشغيله وتوسعته، وهذا يفرغك للتركيز على بناء تطبيقاتك. يوفر HAQM Redshift Serverless سعة مستودع البيانات ويوسّع هذه السعة تلقائيًا للحصول على أداء عالٍ لأعباء العمل كثيرة المتطلبات وغير المتوقعة، ولن تدفع سوى مقابل الموارد التي تستخدمها. كما يحتوي HAQM Redshift على إمكانات الضبط التلقائي، ويقدم توصيات تختص بإدارة مستودعك في Redshift Advisor. مع Redshift Spectrum، يتولى HAQM Redshift إدارة البنية الأساسية للحوسبة كلها، وموازنة التحميل، والتخطيط، والجدولة، وتنفيذ استعلاماتك على البيانات المخزنة في HAQM S3. يُمكّن HAQM Redshift التحليلات على جميع بياناتك عن طريق التكامل العميق مع خدمات قواعد البيانات بفضل ميزات مثل HAQM Aurora Zero-ETL to HAQM Redshift والاستعلام الموحد للوصول إلى البيانات في مكانها من قواعد البيانات التشغيلية مثل HAQM RDS ومخزن بيانات HAQM S3. يُمكّن Redshift استيعاب البيانات المتدفقة بدون تعليمة برمجية، من خلال مسارات بيانات تلقائية تستوعب تلقائيًا البيانات المتدفقة أو ملفات HAQM S3. كما يتكامل Redshift أيضًا مع AWS Data Exchange، وهذا بدوره يُمكّن المستخدمين من البحث عن مجموعات بيانات الأطراف الخارجية والاشتراك فيها والاستعلام عنها ودمجها مع بياناتهم للحصول على رؤى شاملة. من خلال التكامل الأصلي في HAQM SageMaker، يستطيع العملاء البقاء داخل مستودع البيانات الخاص بهم وإنشاء نماذج تعلّم آلة في SQL وتدريب تلك النماذج وبنائها. يوفر HAQM Redshift في جميع احتياجاتك من تحليلات SQL أداءً تسعيريًا أفضل بمقدار 5 مرات من مستودعات البيانات السحابية الأخرى.
س: ما خيارات النشر المتاحة في HAQM Redshift؟
HAQM Redshift عبارة عن خدمة مُدارة بالكامل وتقدم كلاً من الخيار الموفَّر والخيار بلا خوادم، وهذا يزيد لك من كفاءة تشغيل التحليلات وتوسعتها بدون الاضطرار إلى إدارة مستودع البيانات. يمكنك تشغيل نقطة نهاية HAQM Redshift Serverless جديدة لتوفير مستودع البيانات تلقائيًا في ثوانٍ أو يمكنك اختيار الخيار المُوفَّر لأعباء العمل التنبؤية.
س: كيف يمكنني بدء استخدام HAQM Redshift؟
من خلال بضع خطوات في وحدة إدارة تحكم AWS، يمكنك بدء الاستعلام عن البيانات. يُمكنك الاستفادة من عينة مجموعات البيانات مسبقة التحميل، بما في ذلك مجموعات بيانات المعيار TPC-H وTPC-DS وغيرها من عينات الاستعلامات لبدء التحليلات على الفور. لبدء استخدام HAQM Redshift Serverless، اختر "تجربة HAQM Redshift Serverless" وابدأ الاستعلام عن البيانات. ابدأ الاستخدام هنا.
س: كيف يُقارن أداء HAQM Redshift بأداء مستودعات البيانات الأخرى؟
تُظهر نتائج المعيار TPC-DS أن HAQM Redshift يوفر أفضل أداء تسعيري حتى في حالة مجموعة البيانات الصغيرة نسبيًا التي سعتها 3 تيرابايت. يوفر HAQM Redshift أداءً تسعيريًا أفضل بمقدار 5 مرات من مستودعات البيانات السحابية الأخرى. وهذا يعني أنه يمكنك الاستفادة من الأداء التسعيري الرائد المتاح في HAQM Redshift من البداية بدون ضبط يدوي. استنادًا إلى قياس أداء الأسطول عن بُعد، نعلم أيضًا أن معظم أعباء العمل هي أعباء عمل استعلام قصيرة (أعباء عمل يجري تشغيلها في أقل من ثانية واحدة). في أعباء العمل هذه، تُظهر أحدث المعايير أن HAQM Redshift يقدم أداءً تسعيريًا أفضل بما يصل إلى 7 أضعاف في أعباء العمل عالية التزامن منخفضة زمن الاستجابة مقارنةً بمستودعات البيانات السحابية الأخرى. تعرّف على المزيد هنا.
س: هل يمكنني الحصول على مساعدة للتعرف على المزيد حول خدمة HAQM Redshift وإلحاقها؟
نعم، يتوفر متخصصو HAQM Redshift للإجابة على الأسئلة وتقديم الدعم. اتصل بنا وسيصلك رد منا خلال يوم عمل واحد لمناقشة كيف يمكن أن تساعد AWS مؤسستك.
س: ما المقصود بالتخزين المُدار من HAQM Redshift؟
يتوفر التخزين المُدار من HAQM Redshift مع أنواع عقد RA3 والعقد بلا خوادم ويتيح لك إمكانية التوسع والدفع مقابل التخزين والحوسبة بشكل مستقل حتى تتمكن من تغيير حجم مجموعتك بناءً على احتياجات الحوسبة فقط. وهو يستخدم تلقائيًا التخزين المحلي المستند إلى محركات الحالة الثابتة عالية الأداء كذاكرة تخزين مؤقت من الطبقة الأولى ويستفيد من التحسينات مثل مقدار كتلة البيانات، وعمر كتلة البيانات، وأنماط عبء العمل لتقديم أداء عالٍ أثناء توسيع التخزين تلقائيًا إلى HAQM S3 عند الحاجة بدون أن يتطلب أي إجراء.
س: كيف أستخدم التخزين المُدار من HAQM Redshift؟
إذا كنت تستخدم بالفعل عُقَد التخزين المكثف HAQM Redshift أو عُقَد الحوسبة المكثفة، فيمكنك استخدام Elastic Resize (تغيير الحجم المرن) لترقية مجموعاتك الحالية إلى مثيل حسابي جديد هو RA3. تقوم HAQM Redshift Serverless والمجموعات التي تستخدم مثيل RA3 تلقائيًا باستخدام التخزين المدار بواسطة Redshift من أجل تخزين البيانات. لا يتطلب أية إجراءات إضافية خارج استخدام مثيلات HAQM Redshift Serverless أو RA3 لاستخدام هذه الإمكانية.
س: كيف يمكنني تشغيل استعلامات من Redshift للبيانات المخزنة في مخزن بيانات AWS؟
HAQM Redshift Spectrum هي إحدى ميزات HAQM Redshift التي تتيح لك تشغيل استعلامات على خلفية مخزن البيانات في خدمة HAQM S3، بدون الحاجة إلى تحميل بيانات أو ETL. عند إصدار استعلام SQL، فإنه ينتقل إلى نقطة نهاية HAQM Redshift، والتي تقوم بإنشاء خطة استعلام وتحسينها. يحدد HAQM Redshift البيانات المحلية والبيانات الموجودة في HAQM S3، ويضع خطةً لتقليل كمية بيانات S3 التي يجب قراءتها، ويطلب من عمال HAQM Redshift Spectrum الخروج من تجمع الموارد المشترك لقراءة البيانات ومعالجتها من HAQM S3.
س: ما الذي ينبغي مراعاته عند استخدام مثيلات RA3؟
فكر في اختيار أنواع عُقَد RA3 في الحالات التالية:
- تحتاج إلى المرونة في توسع الحوسبة والدفع مقابلها بعيدًا عن التخزين.
- تستعلم عن جزء من إجمالي بياناتك.
- يتزايد حجم بيانات بسرعة أو من المتوقع زيادته سريعًا.
- تريد المرونة لقياس حجم المجموعات بناءً على احتياجات أدائك فقط.
مع استمرار زيادة نطاق البيانات ليصل إلى وحدات من البيتابايت، يزيد أيضًا حجم البيانات التي تستوعبها في مستودع بيانات HAQM Redshift. ربما تبحث عن طرق لتحليل جميع بياناتك بطريقة فعالة.
مع مثيلات HAQM Redshift RA3 الجديدة ذات التخزين المُدار، يمكنك اختيار عدد العُقد بناءً على متطلبات أدائك، ولن تدفع إلا مقابل ما تستخدمه من قدرة التخزين المُدار. وهذا يمنحك المرونة في اختيار حجم مجموعة RA3 بناءً على كمية البيانات التي تعالجها يوميًا بدون زيادة تكاليف التخزين. وبناءً على نظام AWS Nitro System، تستخدم مثيلات RA3 ذات التخزين المُدار محركات حالة ثابتة عالية الأداء (SSDs) في حالة بياناتك النشطة وتستخدم HAQM S3 في حالة بياناتك غير النشطة، ما يوفر سهولةً في استخدام التخزين فعال التكلفة وسرعةً في أداء الاستعلامات.
س: ما الميزة التي يمكنني استخدامها في التحليلات القائمة على الموقع؟
يوفر HAQM Redshift spatial تحليلات قائمةً على الموقع للحصول على رؤى ثرية في بياناتك. حيث تدمج بسهولة البيانات المكانية وبيانات الأعمال لتوفر تحليلات تساهم في اتخاذ القرارات. أطلقت HAQM Redshift دعم معالجة البيانات المكانية الأصلية في نوفمبر 2019، مع هندسة نوع بيانات متعددة الأشكال وعدة وظائف مكانية رئيسة في SQL. والآن ندعم نوع البيانات الجغرافية وزاد حجم مكتبتنا من الوظائف المكانية في SQL حتى وصل إلى 80. ندعم جميع أنواع البيانات والمعايير المكانية المشتركة بما فيها Shapefiles وGeoJSON وWKT وWKB وeWKT وeWKB. لمعرفة المزيد، تفضل بزيارة صفحة الوثائق أو صفحة البرامج التعليمية المكانية في HAQM Redshift.
س. كيف يُقارن دعم SQL في Athena مع Redshift، وكيف لي أن أختار بين الخدمتين؟
يقوم كل من HAQM Athena وHAQM Redshift Serverless بمعالجة مختلف الاحتياجات وحالات الاستخدام، حتى وإن كانت كلتا الخدمتين بلا خوادم ويُمكّنان مستخدمي SQL.
بفضل بنية المعالجة المتوازية على نطاق واسع (MPP) التي تفصل بين التخزين والحوسبة وتعلّم الآلة التي أدت إلى إمكانات التحسين التلقائي، يعد مستودع البيانات مثل HAQM Redshift، سواءً كان بلا خوادم أو كان مُوفَّرًا، خيارًا رائعًا للعملاء الذين يحتاجون أفضل أداء تسعيري على أي نطاق لأعباء العمل المعقدة الخاصة بذكاء الأعمال والتحليلات. يمكن للعملاء استخدام HAQM Redshift كأحد المكونات المركزية في بنية البيانات لديهم حيث يتوفر به تكاملات عميقة للوصول إلى البيانات الموجودة أو استيعاب البيانات أو نقلها بسهولة إلى المستودع للحصول على تحليلات عالية الأداء، من خلال الطريقة ZeroETL والطريقة no-code (بلا تعليمة برمجية). يمكن للعملاء الوصول إلى البيانات المخزنة في HAQM S3، وقواعد البيانات التشغيلية مثل Aurora وHAQM RDS، ومستودعات بيانات الأطراف الخارجية من خلال التكامل مع AWS Data Exchange، والدمج مع البيانات المخزنة في مستودع بيانات HAQM Redshift لإجراء التحليلات. يُمكنهم بدء تخزين البيانات بسهولة وإجراء تعلّم الآلة باستخدام كل هذه البيانات.
تُعد خدمة HAQM Athena مناسبةً تمامًا للتحليلات التفاعلية واستكشاف البيانات في مخزن البيانات أو أي مصدر بيانات من خلال إطار عمل موصلات قابل للتوسّع (يتضمن أكثر من 30 موصلًا مبتكرًا للتطبيقات وفي أماكن العمل أو أنظمة التحليلات السحابية الأخرى) بدون القلق بشأن استيعاب البيانات أو معالجتها. تم تصميم HAQM Athena على محركات وأطر عمل مفتوحة المصدر مثل Spark وPresto وApache Iceberg، مما يمنح العملاء المرونة في استخدام Python أو SQL أو العمل على تنسيقات البيانات المفتوحة. إذا أراد العملاء إجراء تحليلات تفاعلية باستخدام أطر عمل وتنسيقات بيانات مفتوحة المصدر، فإن HAQM Athena تُعد مكانًا رائعًا للبدء.
بدون خوادم
س: ما المقصود بـ HAQM Redshift Serverless؟
HAQM Redshift Serverless هو أحد خيارات HAQM Redshift التي بلا خوادم الذي يزيد من كفاءة إجراء التحليلات ويوسّع نطاقها في ثوانٍ بدون الحاجة إلى إعداد البنية الأساسية لمستودع البيانات وإدارتها. مع Redshift Serverless، يستطيع المستخدمون، بمن فيهم محللو البيانات والمطورون ومتخصصو الأعمال وعلماء البيانات، الحصول على الرؤى والأفكار من البيانات بسهولة عن طريق تحميلها والاستعلام عنها في مستودع البيانات.
س: كيف يمكنني بدء استخدام HAQM Redshift Serverless؟
يُمكنك من خلال بضع خطوات في وحدة إدارة تحكم AWS اختيار "تكوين HAQM Redshift Serverless" وبدء الاستعلام عن البيانات. يُمكنك الاستفادة من عينة مجموعات بيانات محملة مسبقًا مثل بيانات الطقس وبيانات التعداد السكاني ومجموعات بيانات المعايير بالإضافة إلى عينات من الاستعلامات لبدء التحليلات فورًا. ويمكنك إنشاء مجموعات البيانات والمخططات والجداول وبيانات الحمل من HAQM S3، ومشاركات بيانات HAQM Redshift أو استعادتها من نسخة احتياطية موفَّرة حالية من Redshift. كما يمكنك الاستعلام عن البيانات في تنسيقات مفتوحة (مثل Parquet أو ORC) في مخزن بيانات HAQM S3 أو بيانات الاستعلامات في قواعد بيانات تشغيلية مثل HAQM Aurora وHAQM RDS PostgreSQL وMySQL. راجع دليل بدء الاستخدام.
س: ما مزايا استخدام HAQM Redshift Serverless؟
إذا لم يكن لديك خبرة في إدارة مستودع البيانات، فلا تقلق بشأن إعداد المجموعات أو تكوينها أو إدارتها أو ضبط المستودع. يمكنك التركيز على استخلاص رؤى مفيدة من بياناتك أو تقديم نتائج أعمال أساسية من خلال البيانات. ولا تدفع سوى مقابل ما تستخدمه لتتمكن من إدارة التكاليف. تستمر في الاستفادة من أداء HAQM Redshift العالي وميزات SQL المتميزة، والتكامل السلس مع مخازن البيانات ومستودعات البيانات التشغيلية والتحليلات التنبؤية المدمجة وإمكانات مشاركة البيانات. إذا كنت بحاجة إلى تحكم دقيق في مستودع بياناتك، يمكنك توفير مجموعات Redshift.
س: كيف يعمل HAQM Redshift Serverless مع خدمات AWS الأخرى؟
يُمكنك الاستمرار في استخدام جميع وظائف التحليلات المتميزة المتاحة في HAQM Redshift مثل الصلات المعقدة، والاستعلامات المباشرة عن البيانات في مخزن بيانات HAQM S3 وقواعد البيانات التشغيلية، وطرق العرض المادية، والإجراءات المخزنة، ودعم البيانات شبه المهيكلة، وتعلّم الآلة، وكذلك الأداء العالي على نطاق واسع. إن كل الخدمات ذات الصلة التي يتكامل معها HAQM Redshift (مثل HAQM Kinesis، وAWS Lambda، وHAQM QuickSight، وHAQM SageMaker، وHAQM EMR، وAWS Lake Formation، وAWS Glue) تستمر في العمل مع HAQM Redshift Serverless.
س: ما حالات الاستخدام التي يمكنني معالجتها باستخدام HAQM Redshift Serverless؟
يمكنك الاستمرار في تشغيل جميع حالات استخدام التحليلات. بفضل بساطة بدء سير العمل، وضبط النطاق التلقائي، وإمكانية الدفع مقابل الاستخدام، فإن تجربة HAQM Redshift Serverless الآن تزيد من كفاءة بيئات التطوير والاختبار وتجعلها أكثر فعالية من حيث التكلفة وهذه البيئات تحتاج إلى سرعة البدء، وتحليلات أعمال مخصصة، وأعباء عمل ذات احتياجات حوسبة متنوعة وغير متوقعة، وأعباء عمل متقطعة أو متفرقة.
استيعاب البيانات وتحميلها
س: كيف أقوم بتحميل البيانات في مستودع بيانات HAQM Redshift الخاص بي؟
يمكنك تحميل البيانات إلى HAQM Redshift من مجموعة من مصادر البيانات بما في ذلك HAQM S3 أو HAQM RDS أو HAQM DynamoDB أو HAQM EMR أو AWS Glue أو AWS Data Pipeline أو أي مضيف يدعم SSH على HAQM EC2 أو في الموقع. يحاول HAQM Redshift تحميل بياناتك بشكل متواز لكل عقدة حوسبة لزيادة السعر الذي يتم عنده استيعاب البيانات داخل مجموعة مستودع البيانات الخاصة بك. يستطيع العملاء الاتصال بـ HAQM Redshift باستخدام ODBC أو JDBC وإصدار أوامر "إدخال" SQL لإدخال البيانات. يُرجى ملاحظة أن هذا أبطأ من استخدام S3 أو DynamoDB لأن هذه الطرق تقوم بتحميل البيانات بشكل متوازٍ لكل عقدة حوسبة بينما يقوم SQL بإدخال حمل العبارات من خلال العقدة الرائدة الوحيدة. لمزيد من التفاصيل حول تحميل البيانات في HAQM Redshift، يُرجى الاطلاع على دليل بدء الاستخدام.
س: كيف يختلف الأمر auto-copy (النسخ التلقائي) عن الأمر copy (النسخ) في Redshift؟
يوفر الأمر auto-copy (النسخ التلقائي) في Redshift إمكانية أتمتة جُمَل النسخ عن طريق تتبع مجلدات HAQM S3 واستيعاب ملفات جديدة بدون تدخل من العميل. بدون النسخ التلقائي، تقوم جُملة النسخ بالبدء الفوري لعملية استيعاب الملفات للملفات الحالية. يقوم النسخ التلقائي بتمديد أمر النسخ الحالي ويوفر القدرة على 1/ أتمتة عملية استيعاب الملفات من خلال مراقبة مسارات HAQM S3 المحددة للملفات الجديدة، و2/ إعادة استخدام تكوينات النسخ، مما يقلل من الحاجة إلى إنشاء جُمَل نسخ جديدة وتشغيلها لمهام الاستيعاب المتكررة، و3/ تتبع الملفات المحملة لتجنب تكرار البيانات.
س: كيف يمكنني بدء استخدام أمر النسخ التلقائي في Redshift؟
للبدء، يجب أن يكون لدى العملاء مجلد HAQM S3، والذي يمكن الوصول إليه عن طريق مجموعة Redshift/نقطة نهاية بلا خوادم باستخدام أدوار IAM المرتبطة، وإنشاء جدول Redshift لاستخدامه كهدف. بمجرد أن يصبح مسار HAQM S3 وجدول Redshift جاهزين، يمكن للعملاء إنشاء مهمة نسخ باستخدام الأمر copy. بمجرد إنشاء مهمة النسخ، يبدأ Redshift في تتبع مسار HAQM S3 المحدد بالخلفية ويبدأ جُمَل النسخ المعرفة بواسطة المستخدم لتقوم بنسخ الملفات الجديدة تلقائيًا إلى الجدول الهدف.
س: ما حالات استخدام تكامل HAQM Redshift لـ Apache Spark؟
تشمل حالات الاستخدام الرئيسية ما يلي: 1/ العملاء الذين يستخدمون HAQM EMR وAWS Glue لتشغيل مهام Apache Spark التي تصل إلى البيانات وتحميلها في HAQM Redshift كجزء من مسارات استيعاب البيانات وتحويلها (الدفعية والتدفق) 2/ العملاء الذين يستخدمون HAQM SageMaker في إجراء تعلّم الآلة باستخدام Apache Spark ويتعين عليهم الوصول إلى البيانات المخزنة في HAQM Redshift المتعلقة بهندسة الميزات والتحوّل. 3/ عملاء HAQM Athena يستخدمون Apache Spark في إجراء تحليل تفاعلي على البيانات في HAQM Redshift.
س: ما مزايا تكامل HAQM Redshift لـ Apache Spark؟
يوفر Baikal المزايا التالية: 1/ سهولة الاستخدام لبدء تطبيقات Apache Spark وتشغيلها على البيانات في HAQM Redshift بدون القلق بشأن الخطوات اليدوية الموجودة في إعداد الإصدارات غير المعتمدة من Spark وصيانتها؛ 2/ سهولة استخدام Apache Spark من خدمات AWS المتنوعة مثل HAQM EMR وAWS Glue وHAQM Athena وHAQM SageMaker مع HAQM Redshift مع الحد الأدنى من التكوين؛ 3/ تحسين الأداء مع تشغيل تطبيقات Apache Spark على HAQM Redshift.
س. متى ينبغي لي استخدام HAQM Aurora Zero-ETL to HAQM Redshift بدلًا من الاستعلام الموحد؟
تُمكّن الميزة HAQM Aurora Zero-ETL to HAQM Redshift عملاء HAQM Aurora وHAQM Redshift من تشغيل تحليلات في الوقت الفعلي تقريبًا وتعلّم الآلة على وحدات بيتابايت من بيانات المعاملات من خلال تقديم حل مُدار بالكامل بهدف إتاحة بيانات المعاملات من HAQM Aurora في HAQM Redshift في غضون ثوانٍ من كتابتها. مع الميزة HAQM Aurora Zero-ETL to HAQM Redshift، ما على العملاء سوى اختيار جداول HAQM Aurora التي تحتوي على البيانات التي يرغبون في تحليلها باستخدام HAQM Redshift، وتقوم الميزة بتكرار المخطط والبيانات بسلاسة في HAQM Redshift. إنه يقلل من حاجة العملاء إلى إنشاء مسارات معقدة للبيانات وإدارتها، وبالتالي يمكنهم بدلاً من ذلك التركيز على تحسين تطبيقاتهم. مع الميزة HAQM Aurora Zero-ETL to HAQM Redshift، يمكن للعملاء نسخ البيانات نسخًا متماثلًا من عدة مجموعات من قواعد بيانات HAQM Aurora في مثيل HAQM Redshift نفسه للحصول على رؤى شاملة عبر العديد من التطبيقات، وفي الوقت نفسه دمج أصول التحليلات الأساسية، وتحقيق وفورات كبيرة في التكلفة وتحسين الكفاءة التشغيلية. مع الميزة HAQM Aurora Zero-ETL to HAQM Redshift، يمكن للعملاء أيضًا الوصول إلى التحليلات الأساسية وإمكانات تعلم الآلة التي يشتمل عليها HAQM Redshift مثل طرق العرض المادية، ومشاركة البيانات، والوصول الموحد إلى العديد من مخازن البيانات. يُمكّن ذلك العملاء من الجمع بين التحليلات في الوقت الفعلي والتحليلات الأساسية لاستخلاص رؤى حساسة للوقت بشكل فعال والتي تسترشد بقرارات الأعمال. علاوةً على ذلك، يستخدم العملاء HAQM Aurora في المعاملات وHAQM Redshift للتحليلات، وبالتالي لا توجد موارد حوسبة مشتركة وهذا ينتج عنه حل فعال ومستقر من الناحية التشغيلية.
س: كيف ترتبط الميزة HAQM Aurora Zero-ETL to HAQM Redshift بخدمات AWS الأخرى وكيف تعمل معها؟
يوفر تكامل HAQM Aurora Zero-ETL مع HAQM Redshift تكاملاً سلسًا بين الخدمتين لتحليلات المعاملات.
س. كيف تعمل الميزة Streaming Ingestion (استيعاب التدفق)؟
تختلف بيانات البث عن جداول قواعد البيانات التقليدية في أنه عندما تقوم بالاستعلام عن بث، فإنك تلتقط صورةً لتطور علاقة متغيرة بمرور الوقت. ومن ناحية أخرى، تلتقط الجداول نسخةً احتياطيةً في نقطة زمنية معينة لهذه العلاقة المتغيرة بمرور الوقت. يعتاد عملاء HAQM Redshift على العمل على جداول منتظمة وإجراء المعالجة النهائية (أي التحوّلات) للبيانات باستخدام نموذج دفعي تقليدي، على سبيل المثال "ELT". إننا نقدم طريقةً لاستخدام طرق العرض المادية (MVs) في Redshift وبالتالي يمكن للعملاء بسهولة إعداد عرض مادي لنقطة زمنية معينة، على نحو متراكم إلى حين وقت الاستعلام عنه، بأسرع ما يمكن لدعم تدفقات عمل ELT.
مشاركة البيانات
: ما حالات استخدام مشاركة البيانات؟
تتضمن حالات الاستخدام الرئيسية ما يلي:
- مجموعة ETL مركزية تُجري مشاركةً للبيانات مع العديد من مجموعات ذكاء الأعمال/التحليلات لتوفير عزل أعباء عمل القراءة وإمكانية الشحن الاختيارية.
- موفر بيانات يُجري مشاركةً للبيانات إلى مستهلكين خارجيين.
- مشاركة مجموعات بيانات مشتركة مثل العملاء والمنتجات عبر مجموعات الأعمال المختلفة والتعاون من أجل توسعة التحليلات وعلوم البيانات.
- تحقيق لامركزية مستودع البيانات من أجل تبسيط الإدارة.
- مشاركة البيانات بين بيئات التطوير والاختبار والإنتاج.
- الوصول إلى بيانات Redshift من خدمات التحليلات الأخرى من AWS.
س: ما المقصود بالاستعلامات عبر قواعد البيانات في HAQM Redshift؟
باستخدام الاستعلامات عبر قواعد البيانات، يُمكنك الاستعلام بسهولة عن البيانات وضمها من أي قاعدة بيانات Redshift لديك حق الوصول إليها، بغض النظر عن قاعدة البيانات التي تتصل بها. يمكن أن يشمل ذلك قواعد البيانات المحلية على المجموعة وكذلك مجموعات البيانات المشتركة التي تتوفر من المجموعات البعيدة. تمنحك الاستعلامات عبر قواعد البيانات المرونة لتنظيم البيانات كقواعد بيانات منفصلة لدعم التكوينات متعددة المستأجرين.
س: من المستخدمون الرئيسيون لخدمة AWS Data Exchange؟
تحقق AWS Data Exchange لعملاء AWS مزيدًا من الكفاءة في تبادل بيانات الأطراف الخارجية واستخدامها بأمان في AWS. يود محللو البيانات، ومديرو المنتجات، ومديرو قوائم المشروعات، وعلماء البيانات، وعلماء البيانات الكمية، وفنيو التجارب السريرية، والمطورون تقريبًا في كل مجال الوصول إلى المزيد من البيانات لتحسين التحليلات، وتدريب نماذج تعلم الآلة، واتخاذ قرارات مستندة إلى البيانات. ولكن لا يوجد مكان واحد تعثر فيه على بيانات من عدة موفرين ولا يوجد تناسق في كيف يوصل الموفرون البيانات، وبالتالي يتم تركها مع مجموعة من الوسائط المادية المشحونة، وبيانات اعتماد بروتوكول نقل الملفات (FTP)، واستدعاءات واجهة برمجة التطبيقات (API) للحلول. وفي المقابل، تود العديد من المؤسسات جعل البيانات متاحةً لأغراض بحثية أو تجارية ولكن من الصعب جدًا والمكلف القيام ببناء تقنية تختص بتوصيل البيانات واستحقاقها وإصدار الفواتير والحفاظ على هذه التقنية والذي من شأنه إزالة الضغط الناجم عن إمداد البيانات القيّمة.
قابلية التوسع والتزامن
س: كيف يمكنني زيادة حجم وتحسين أداء مجموعة مستودع بيانات HAQM Redshift؟
يوفر HAQM Redshift Serverless تلقائيًا سعة تخزين لمستودع البيانات ويقوم من خلال طريقة ذكية بتوسعة الموارد الأساسية. يقوم HAQM Redshift Serverless بضبط السعة في ثوانٍ لتقديم أداء عالٍ بصفة مستمرة وتوفير عمليات مبسطة حتى لأعباء العمل كثيفة المتطلبات والمتقلبة. ومن خلال ميزة ضبط النطاق المتزامن (Concurrency Scaling)، يمكنك دعم المستخدمين المتزامنين والاستعلامات المتزامنة غير المحدودة، من خلال أداء الاستعلامات الذي يتسم بالسرعة الدائمة. عندما يتم تمكين ميزة ضبط النطاق المتزامن، يقوم HAQM Redshift بإضافة سعة إلى المجموعة عندما تتعرض المجموعة إلى زيادة في قائمة انتظار الاستعلامات.
في التوسّع اليدوي، إذا كنت ترغب في زيادة أداء الاستعلام أو الاستجابة للاستخدام المفرط لوحدة المعالجة المركزية أو الذاكرة أو المدخلات/المخرجات، يمكنك زيادة عدد العُقَد داخل مجموعة مستودع البيانات باستخدام Elastic Resize من خلال وحدة إدارة تحكم AWS أو واجهة برمجة تطبيقات ModifyCluster. عندما تُعدّل مجموعة مستودع البيانات، يتم فورًا تطبيق التغييرات التي تطلبها. تتوفر قياسات استخدام الحوسبة، واستخدام التخزين، وحركة مرور القراءة/الكتابة إلى مجموعة مستودع بيانات Redshift مجانًا عبر وحدة إدارة تحكم AWS أو واجهات برمجة تطبيقات HAQM CloudWatch. يمكنك كذلك إضافة قياسات مُعرَّفة المستخدم من خلال وظيفة القياسات المخصصة HAQM CloudWatch.
ومع HAQM Redshift Spectrum، يمكنك تشغيل مجموعات Redshift متعددة تصل إلى نفس البيانات في HAQM S3. ويمكنك استخدام مجموعات مختلفة لحالات استخدام مختلفة. على سبيل المثال، يمكنك استخدام مجموعة للتقارير القياسية وأخرى لاستعلامات علوم البيانات. ويمكن أن يستخدم فريق التسويق مجموعاته المختلفة عن مجموعات فريق العمليات. تقوم Redshift Spectrum تلقائيًا بتوزيع تنفيذ الاستعلام على عدة عمال Redshift Spectrum من مجموعة موارد مشتركة لقراءة البيانات ومعالجتها من HAQM S3، كما أنه يسحب النتائج مرةً أخرى إلى مجموعة Redshift من أجل إجراء أي عمليات معالجة متبقية.
س: هل تبقى مجموعة مستودع البيانات متاحةً أثناء ضبط النطاق؟
الأمر يتوقف على عدة أشياء. عندما تستخدم ميزة ضبط النطاق المتزامن، تكون المجموعة متاحة بشكل كامل للقراءة والكتابة أثناء ضبط النطاق المتزامن. مع Elastic Resize، لا تكون المجموعة متاحةً لمدة أربع إلى ثمان دقائق والتي تمثل فترة تغيير الحجم. بفضل مرونة تخزين Redshift RA3 في التخزين المُدار، تكون المجموعة متاحةً بصفة كاملة وتنتقل البيانات بشكل تلقائي بين عُقد التخزين المُدار وعُقد الحوسبة.
س: ما المقصود بـ Elastic Resize وكيف يختلف عن ضبط النطاق المتزامن؟
يقوم Elastic Resize بإضافة أو إزالة العُقد من مجموعة Redshift واحدة خلال دقائق لإدارة معدل نقل الاستعلامات الخاصة بها. على سبيل المثال، قد يحتاج عبء عمل ETL لساعات معينة في تقارير نهاية اليوم أو الشهر إلى موارد HAQM Redshift إضافية لإتمامها في الوقت المناسب. تضيف ميزة ضبط النطاق المتزامن المزيد من موارد المجموعة الإضافية من أجل زيادة إجمالي تزامن الاستعلامات.
س: هل يمكنني الوصول إلى مجموعات ضبط النطاق المتزامن بشكل مباشر؟
لا. فضبط النطاق المتزامن عبارة عن مجموعة قابلة للتوسع بشدة من موارد HAQM Redshift، ولا يحظى العملاء بإمكانية الوصول إليها بشكل مباشر.
الأمان
س: كيف يحافظ HAQM Redshift على أمان بياناتي؟
يدعم HAQM Redshift أمانًا رائدًا حيث إنه يتضمن إدارة هويات واتحاد هويات من أجل تسجيل الدخول الأحادي، والمصادقة متعددة العوامل، والتحكم في الوصول على مستوى العمود، والأمان على مستوى الصف، والتحكم في الوصول المستند إلى الدور، وHAQM Virtual Private Cloud (HAQM VPC). مع HAQM Redshift، يتم تشفير بياناتك أثناء النقل وأثناء عدم النشاط. يتم تقديم جميع ميزات أمان HAQM Redshift فورًا بدون أي تكلفة إضافية لتلبية متطلبات الأمان والخصوصية والامتثال الأكثر تطلبًا. يُمكنك الاستفادة من دعم AWS للمزيد من معايير الأمان وشهادات الامتثال أكثر مما يدعمه أي مقدم خدمة آخر، ومن هذه المعايير والشهادات ISO 27001 وSOC وHIPAA/HITECH وFedRAMP.
س: هل يدعم Redshift عناصر التحكم في الوصول متعددة المستويات مثل الأمان؟
نعم، يوفر HAQM Redshift الدعم للتحكم في الوصول القائم على الدور. التحكم في الوصول على مستوى الصف يسمح لك بتعيين دور واحد أو أكثر من دور لمستخدم، وتعيين أذونات النظام وأذونات الكائنات حسب الدور. يُمكنك استخدام أدوار نظام مبتكرة؛ المستخدم الرئيسي، وdba، والمشغل، ومسؤولو الأمان، أو إنشاء أدوارك الخاصة.
س: هل تدعم HAQM Redshift إخفاء البيانات أو ترميز البيانات؟
تمكّنك وظائف AWS Lambda المُعرفة من قِبل المستخدم (UDFs) من استخدام وظيفة AWS Lambda باعتبارها وظيفة مُعرفة من قِبل المستخدم في HAQM Redshift واستدعائها من استعلامات Redshift SQL. تمكّنك هذه الوظيفة من كتابة ملحقات مُخصَّصة لاستعلام SQL لتحقيق تكامل أكثر إحكامًا مع الخدمات الأخرى أو منتجات الأطراف الخارجية. يُمكنك كتابة وظائف Lambda المُعرفة من قِبل المستخدم لتمكين الترميز الخارجي، وإخفاء البيانات، والتعرف على البيانات أو إلغاء التعرف عليها من خلال التكامل مع موردين مثل Protegrity، وحماية البيانات الحساسة أو إلغاء حمايتها بناءً على أذونات المستخدم ومجموعات المستخدم، في وقت الاستعلام.
مع دعم إخفاء البيانات الديناميكي، يسهل على العملاء حماية بياناتهم الحساسة والتحكم في الوصول الدقيق متعدد المستويات من خلال إدارة سياسات إخفاء البيانات. لنفترض أن لديك تطبيقات بها عدة مستخدمين وعدة كائنات تحتوي على بيانات حساسة لا يمكن عرضها لجميع المستخدمين. لديك متطلبات الغرض منها توفير مستوى أمان دقيق متعدد المستويات مختلف تريد منحه لمجموعات أخرى من المستخدمين. إن ميزة إخفاء البيانات الديناميكي في Redshift هي ميزة قابلة للتكوين للسماح للعملاء بتحديد قيم البيانات المخفية بطريقة متسقة محافظة على التنسيق ولا يمكن التراجع عنها. بمجرد أن تكون الميزة متاحة للجمهور العام، تبدأ في استخدامها على الفور يمكن لمسؤولي الأمان إنشاء سياسات وتطبيقها باستخدام أوامر قليلة فقط.
س: هل يدعم HAQM Redshift تسجيل الدخول الأحادي؟
نعم. يمكن للعملاء الذين يرغبون في استخدام موفري هوية المؤسسة مثل Microsoft Azure Active Directory أو Active Directory Federation Services أو Okta أو Ping Federate أو موفري هوية آخرين متوافقين مع SAML تكوين HAQM Redshift لتقديم تسجيل الدخول الأحادي. يمكنك تسجيل الدخول إلى مجموعة HAQM Redshift باستخدام هويات Microsoft Azure Active Directory (AD). وهذا يتيح لك القدرة على تسجيل الدخول إلى Redshift بدون تكرار هويات Azure Active Directory في Redshift.
س: هل يدعم HAQM Redshift المصادقة متعددة العوامل (MFA)؟
نعم. يمكنك استخدام المصادقة متعددة العوامل (MFA) للحصول على أمان إضافي عند المصادقة مع مجموعة HAQM Redshift الخاصة بك.
التوافر الدائم والمتانة
س: ماذا يحدث لتوافر مجموعة مستودع البيانات ومتانة البيانات في حالة فشل عقدة واحدة؟
يكتشف HAQM Redshift بشكل تلقائي العقدة التي فشلت في مجموعة مستودع البيانات ويستبدلها. وفي مجموعات الحوسبة المكثفة (DC) والتخزين المكثف (DS2)، تُخزَّن البيانات على عُقَد الحوسبة لضمان متانة عالية للبيانات. وعند استبدال إحدى العُقَد، يتم تحديث البيانات من النسخة المعكوسة على العقدة الأخرى. لا تتأثر مجموعات RA3 وRedshift serverless بنفس الطريقة لأن البيانات مخزنة في HAQM S3 ويُستخدم المحرك المحلي كمخزن مؤقت للبيانات فقط. وتكون مجموعة مستودع البيانات غير متاحة للاستعلامات والتحديثات إلى أن يتم توفير عقدة بديلة وإضافتها إلى قاعدة البيانات. ويتيح HAQM Redshift العقدة البديلة الخاصة بك بشكل فوري ويقوم بتحميل البيانات التي تصل إليها بشكل أكثر تكرارًا من HAQM S3 أولاً للسماح لك باستئناف عمليات الاستعلام عن البيانات في أسرع وقت ممكن. لا تدعم مجموعات العقد المفردة النسخ المتماثل للبيانات. في حالة فشل محرك أقراص، يتعين عليك استعادة المجموعة من النسخة الاحتياطية الموجودة على S3. نوصي باستخدام عقدتين على الأقل لأغراض الإنتاج.
س: ماذا يحدث لتوافر مجموعة مستودع البيانات الخاصة بي ومتانة البيانات إذا تعطلت منطقة توافر الخدمات (AZ) الخاصة بمجموعة مستودع البيانات؟
إذا كان مستودع بيانات HAQM Redshift الخاص بك من نوعية النشر في منطقة توافر واحدة وأصبحت منطقة التوافر الخاصة بالمجموعة غير متوفرة، فسيقوم HAQM Redshift تلقائيًا بنقل مجموعتك إلى منطقة توافر خدمات (AZ) أخرى من AWS بدون أي فقد للبيانات أو تغييرات في التطبيقات. لتنشيط هذا، يجب عليك تمكين إمكانية الانتقال في إعدادات تكوين مجموعتك.
س: لماذا لي ينبغي استخدام النشر في عدة مناطق توافر في Redshift؟
على عكس عمليات النشر في منطقة توافر واحدة، يمكن للعملاء الآن تحسين توافر Redshift من خلال تشغيل مستودع البيانات في عملية نشر متعددة مناطق التوافر. النشر في عدة مناطق توافر يتيح لك تشغيل مستودع البيانات في عدة مناطق توافر خدمات (AZ) من AWS في وقت واحد ومواصلة العمل في سيناريوهات فشل غير متوقعة. لا يلزم إجراء أي تغييرات في التطبيقات للحفاظ على استمرارية الأعمال حيث إن النشر متعدد مناطق التوافر تتم إدارته كمستودع بيانات واحد بنقطة نهاية واحدة. تعمل عمليات النشر متعدد المناطق على تقليل وقت التعافي من خلال ضمان القدرة على التعافي تلقائيًا وهي مخصصة للعملاء الذين لديهم تطبيقات تحليلات حيوية للأعمال تتطلب أعلى مستويات التوافر والمرونة في حالات فشل منطقة التوافر. يُتيح هذا أيضًا للعملاء تنفيذ حل أكثر توافقًا من خلال توصيات ركيزة الموثوقية في AWS Well-Architected Framework. لمعرفة المزيد حول مناطق التوافر المتعددة في HAQM Redshift، يرجى الرجوع إلى هنا.
س: ما المقصود بـ RPO وRTO؟ ما RPO وRTO المدعومان بالنشر متعدد مناطق التوافر؟
RPO هو اختصار للعبارة Recovery Point Objective التي تعني هدف نقطة الاسترجاع وهو مصطلح لوصف ضمان حداثة البيانات في حالة الفشل. هدف نقطة الاسترجاع (RPO) هو أقصى مقدار مقبول من الوقت منذ آخر نقطة استرجاع للبيانات. يحدد هذا الهدف ما يعتبر فقدانًا مقبولًا في البيانات بين نقطة الاسترجاع الأخيرة وانقطاع الخدمة. تدعم خدمة Redshift Multi-AZ هدف نقطة الاسترجاع (RPO) = 0، ما يعني ضمان حداثة البيانات وتحديثها في حالة حدوث فشل. وجدت اختبارات ما قبل الإطلاق أن هدف نقطة الاسترجاع (RTO) يستغرق في عمليات نشر HAQM Redshift Multi-AZ أقل من 60 ثانية أو أدنى من ذلك بكثير في الحالة غير المتوقعة لفشل منطقة توافر الخدمات (AZ).
س: ما وجه المقارنة بين Redshift Multi-AZ وميزة Redshift Relocation الحالية؟
يجري تمكين الميزة Redshift Relocation افتراضيًا على جميع مجموعات RA3 الجديدة ونقاط النهاية بلا خوادم، ما يسمح بإعادة تشغيل مستودع البيانات في منطقة توافر خدمات أخرى في حالة الانقطاع على نطاق واسع، بدون أي فقدان للبيانات أو تكلفة إضافية. على الرغم من أن الميزة Relocate (الانتقال) هي ميزة مجانية، إلا أن القيود تتمثل في أنها عبارة عن طريقة بذل أفضل الجهود تخضع لتوافر الموارد في منطقة توافر الخدمات التي يتم استرجاعها ويمكن أن يتأثر هدف وقت الاسترجاع (RTO) بالمشكلات الأخرى المتعلقة ببدء مجموعة جديدة. يمكن أن يؤدي ذلك إلى أوقات استرجاع تتراوح بين 10 دقائق و60 دقيقة. تدعم Redshift Multi-AZ متطلبات التوافر العالية من خلال توفير هدف نقطة استرجاع (RTO) منخفض، وتوفر تشغيلاً مستمرًا مضمونًا لأنها لن تخضع لقيود السعة في أثناء استرجاع المجموعة.
الاستعلامات والتحليلات
س: هل HAQM Redshift وRedshift Spectrum متوافقان مع حزمة برامج ذكاء الأعمال وأدوات ETL التي أفضلها؟
نعم، حيث يستخدم HAQM Redshift لغة SQL القياسية في الصناعة ويمكن الوصول إليها باستخدام برامج تشغيل JDBC وODBC القياسية. ويمكنك تنزيل برامج تشغيل JDBC وODBC المُخصَّصة لـ HAQM Redshift من علامة تبويب «Connect Client» في وحدة تحكم Redshift. لقد تحققنا من التكاملات مع بائعي ذكاء الأعمال وETL الذين يملكون شهرة عريضة، ومجموعة منهم يعرضون التجارب المجانية لمساعدتك في بدء تحميل بياناتك وتحليلها. يمكنك أيضًا التوجه إلى AWS Marketplace من أجل نشر وتكوين الحلول المصممة للعمل مع HAQM Redshift خلال دقائق.
يدعم HAQM Redshift Spectrum كل أدوات عملاء HAQM Redshift. يمكن أن تساهم أدوات العملاء في الاتصال بنقطة نهاية مجموعة HAQM Redshift باستخدام اتصالات ODBC أو JDBC. ولا يلزم إجراء أي تغييرات.
ويمكنك استخدام نفس البناء اللغوي للاستعلام بالضبط وامتلاك نفس القدرات اللازمة للوصول إلى الجداول في Redshift Spectrum مثل تلك التي تمتلكها للجداول في وحدات التخزين المحلية في مجموعة Redshift لديك. وتتم الإشارة إلى الجداول الخارجية باستخدام اسم المخطط المعرّف في الأمر CREATE EXTERNAL SCHEMA حيث تم تسجيلها.
س: ما تنسيقات البيانات وتنسيقات الضغط التي يدعمها HAQM Redshift Spectrum؟
يدعم HAQM Redshift Spectrum حاليًا العديد من تنسيقات البيانات مفتوحة المصدر، منها Avro، وCSV، وGrok، وHAQM Ion، وJSON، وORC، وParquet، وRCFile، وRegexSerDe، وSequence، وText، وTSV.
يدعم HAQM Redshift Spectrum حاليًا ضغط Gzip وSnappy.
س: ماذا يحدث إذا كان هناك جدول في وحدة تخزين محلية لدي له نفس اسم جدول خارجي؟
تمامًا كما هو الحال مع الجداول المحلية، يمكنك استخدام اسم المخطط من أجل اختيار ما تعنيه بالضبط من خلال استخدام schema_name.table_name في الاستعلام الخاص بك.
س: أستخدم Hive Metastore من أجل تخزين بيانات التعريف بشأن مخزن بيانات S3 الخاص بي. فهل يمكنني استخدام Redshift Spectrum؟
نعم. أمر CREATE EXTERNAL SCHEMA يدعم Hive Metastores. إننا لا ندعم DDL حاليًا في مقابل Hive Metastore.
س: كيف يمكن أن أحصل على قائمة بكل جداول قواعد البيانات الخارجية التي يتم إنشاؤها في مجموعتي؟
للحصول على تلك المعلومات، يمكنك عمل الاستعلام على جدول النظام SVV_EXTERNAL_TABLES.
س: هل يدعم Redshift القدرة على استخدام تعلّم الآلة مع SQL؟
نعم، تُسهل ميزة HAQM Redshift ML على مستخدمي SQL إنشاء نماذج تعلّم الآلة (ML) وتدريبها ونشرها باستخدام أوامر SQL المعتادة. يتيح لك التعلم الآلي HAQM Redshift الاستفادة من بياناتك في HAQM Redshift باستخدام HAQM SageMaker، وهي خدمة تعلُّم آلي مُدارة بالكامل. تدعم HAQM Redshift التعلم بدون إشراف (K-Means) والتعلم بإشراف (Autopilot، XGBoost، MLP algorithms). كما يمكنك استخدام خدمات الذكاء الاصطناعي اللغوية من AWS لترجمة وتحرير وتحليل حقول النصوص في استعلامات SQL مع وظائف Lambda UDF مسبقة الإعداد - طالع منشور المدونة.
س: هل توفر HAQM Redshift واجهة برمجة تطبيقات (API) للاستعلام عن البيانات؟
تقوم HAQM Redshift بتوفير Data API التي تُمكّنك من الوصول إلى البيانات بدون مجهود من HAQM Redshift مع جميع أنواع التطبيقات المستندة إلى خدمات الويب التقليدية، والأصلية للسحابة، والمستندة إلى حاويات، والتي بلا خوادم وكذلك التطبيقات القائمة على الأحداث. تعمل Data API على تبسيط الوصول إلى HAQM Redshift نظرًا لعدم احتياجك إلى تكوين برامج التشغيل وإدارة اتصالات قاعدة البيانات. أو يمكنك تشغيل أوامر SQL إلى مجموعة HAQM Redshift عن طريق استدعاء نقطة نهاية API مؤمَّنة توفرها Data API. تتولى Data API إدارة اتصالات قاعدة البيانات وتخزين البيانات مؤقتًا. تُعد Data API غير متزامنة، لذا يمكنك استرجاع نتائجك لاحقًا. تُخزَّن نتائج الاستعلام لمدة 24 ساعة.
س: ما أنواع بيانات الاعتماد التي يمكنني استخدامها مع الميزة HAQM Redshift Data API؟
تدعم Data API كلاً من بيانات اعتماد IAM واستخدام مفتاح سري من AWS Secrets Manager. تعمل Data API على توحيد بيانات اعتماد AWS Identity and Access Management (IAM) بحيث يُمكنك استخدام موفِّري الهوية مثل Okta أو Azure Active Directory أو بيانات اعتماد قاعدة البيانات المُخزَّنة في Secrets Manager دون تمرير بيانات اعتماد قاعدة البيانات في مكالمات API.
س: هل يمكنني استخدام HAQM Redshift Data API من AWS CLI؟
نعم، يُمكنك استخدام Data API من AWS CLI باستخدام خيار سطر أوامر aws redshift-data.
س: هل Redshift Data API متكاملة مع خدمات AWS الأخرى؟
يُمكنك استخدام Data API من خدمات أخرى مثل AWS Lambda وAWS Cloud9 وAWS AppSync وHAQM EventBridge.
س: هل يتعين عليَّ أن أدفع بشكل منفصل مقابل استخدام HAQM Redshift Data API؟
كلا، لا توجد رسوم منفصلة لاستخدام Data API.
عمليات تكامل zero-ETL
متى يجب استخدام تكامل zero-etl لـ HAQM Aurora MySQL مع HAQM Redshift؟
يجب عليك استخدام تكامل zero-etl لـ HAQM Aurora MySQL مع HAQM Redshift عندما تحتاج إلى الوصول في الوقت شبه الفعلي إلى بيانات المعاملات. يتيح لك هذا التكامل الاستفادة من تعلّم الآلة (ML) لخدمة HAQM Redshift باستخدام أوامر SQL البسيطة.
ما محركات HAQM Aurora وإصداراتها التي تدعم تكامل zero-ETL؟
يتوفر تكامل zero-etl لـ HAQM Aurora مع HAQM Redshift على إصدار Aurora المتوافق مع MySQL بالنسبة إلى إصدار Aurora MySQL 3.05 (المتوافق مع MySQL 8.0.32) والإصدارات الأحدث في شرق الولايات المتحدة (أوهايو) وشرق الولايات المتحدة (شمال فرجينيا) وغرب الولايات المتحدة (أوريجون) وآسيا والمحيط الهادئ (طوكيو) وآسيا والمحيط الهادئ (سنغافورة) وآسيا والمحيط الهادئ (سيدني) وأوروبا (أيرلندا) وأوروبا (فرانكفورت) وأوروبا (ستوكهولم).
ما الفوائد التي يوفرها تكامل zero-ETL؟
مع تكامل zero-etl لـ HAQM Aurora MySQL مع HAQM Redshift، لا يحتاج العملاء إلى إنشاء مسارات بيانات معقدة وصيانتها لدمج البيانات من مجموعات قاعدة بيانات Aurora الفردية أو المتعددة إلى مجموعة قاعدة بيانات Redshift واحدة وتشغيل التحليلات وتعلّم الآلة في الوقت شبه الفعلي باستخدام HAQM Redshift على أحجام من البيتابايت لبيانات المعاملات من HAQM Aurora.
هل تكامل zero-ETL متوافق مع الإصدار HAQM Aurora بلا خادم v2؟
إن تكامل zero-etl لـ HAQM Aurora MySQL مع HAQM Redshift متوافق مع HAQM Aurora بلا خادم v2. وعند استخدام كل من Aurora بلا خادم وHAQM Redshift بدون خادم، يمكنك إنشاء تحليلات في الوقت شبه الفعلي لبيانات المعاملات بدون الحاجة إلى إدارة أي بنية تحتية لمسارات البيانات.
كيف أمكِّن تكامل zero-ETL؟
يمكنك البدء باستخدام وحدة تحكم HAQM RDS لإنشاء تكامل zero-etl من خلال تحديد مصدر Aurora ووجهة HAQM Redshift. بمجرد إنشاء التكامل، سيُجرى نسخ متماثل لقاعدة بيانات Aurora إلى HAQM Redshift ويمكنك البدء في الاستعلام عن البيانات بمجرد اكتمال مرحلة التأسيس الأولي. لمعرفة المزيد من المعلومات، اقرأ دليل البدء لعمليات تكامل zero-etl لـ HAQM Aurora MySQL مع HAQM Redshift.
كم تبلغ تكلفة تكامل zero-ETL؟
يُقدم تكامل zero-ETL والمعالجة المستمرة لتغييرات البيانات بدون أي رسوم إضافية. إنك تدفع مقابل موارد HAQM RDS وHAQM Redshift الحالية المستخدمة للإنشاء والمعالجة للبيانات المتغيرة المنشأة كجزء من تكامل zero-ETL. قد تتضمن هذه الموارد عمليات الإدخال/الإخراج وسعة التخزين الإضافية المستخدمة من خلال تمكين التسجيل الثنائي المحسّن، بالإضافة إلى تكاليف Snapshot Export لتصدير البيانات الأولية لإنشاء قواعد بيانات HAQM Redshift الخاصة بك، وسعة تخزين HAQM Redshift الإضافية المستخدمة في تخزين البيانات الخاضعة للنسخ المتماثل ونقل البيانات عبر مناطق توافر الخدمات من أجل نقل البيانات من المصدر إلى الوجهة المستهدفة. لمعرفة المزيد من المعلومات، تفضل بزيارة صفحة تسعير Aurora.
النسخ الاحتياطي والاستعادة
س: كيف يقوم HAQM Redshift بعمل النسخ الاحتياطي للبيانات الخاصة بي؟ كيف يمكنني استعادة مجموعتي من نسخة احتياطية؟
تقوم مجموعات HAQM Redshift RA3 وHAQM Redshift Serverless باستخدام التخزين المُدار في Redshift، حيث يكون لديه دائمًا أحدث نسخة من البيانات المتاحة. تعكس مجموعات DS2 وDC2 البيانات على المجموعة لضمان توفر آخر نسخة في حالة الفشل. يتم إنشاء النسخ الاحتياطية على جميع أنواع مجموعات Redshift ويتم الاحتفاظ بها لمدة 24 ساعة وتتوفر على نقاط الاستعادة بلا خوادم على مدار الـ 24 ساعة الماضية.
كما يمكنك إنشاء نسخك الاحتياطية التي يمكن الاحتفاظ بها للأبد. ويمكن إنشاء هذه النسخ الاحتياطية في أي وقت ويمكن تحويل نسخ HAQM Redshift الاحتياطية التلقائية أو نقاط استعادة HAQM Redshift Serverless إلى نسخة احتياطية للمستخدم للاحتفاظ بها لمدة أطول.
يمكن لـ HAQM Redshift أيضًا نسخ النسخ الاحتياطية نسخًا متماثلاً أو نقاط الاستعادة بطريقة غير متزامنة إلى HAQM S3 في منطقة أخرى للتعافي من الكوارث.
في مجموعة DS2 أو DC2، يقتصر تخزين النسخ الاحتياطي المجاني على إجمالي حجم التخزين على العُقد في مجموعة مستودع البيانات، ويسري فقط على مجموعات مستودع البيانات النشطة.
على سبيل المثال، إذا كان إجمالي سعة تخزين مستودع البيانات يبلغ 8 تيرابايت، فسوف نحاول توفير مساحة تخزين للنسخ الاحتياطي مقدارها 8 تيرابايت بدون أي تكلفة إضافية. إذا كنت ترغب في زيادة مدة الاحتفاظ بالنسخة الاحتياطية بما يتجاوز يوم واحد، فيمكنك فعل ذلك باستخدام وحدة إدارة تحكم AWS أو واجهات برمجة تطبيقات HAQM Redshift. للحصول على المزيد من المعلومات بشأن النسخ الاحتياطية التلقائية، يُرجى الرجوع إلى دليل إدارة HAQM Redshift.
يقوم HAQM Redshift بعمل النسخ الاحتياطي للبيانات التي تغيرت، وبالتالي فإن أغلب النسخ الاحتياطية لا تستخدم إلا مساحة ضئيلة للغاية من مساحة تخزين النسخ الاحتياطي الخالية لديك. عندما ترغب في استعادة نسخة احتياطية، يتاح لك الوصول إلى كل النسخ الاحتياطية الآلية في نافذة الاحتفاظ بالنسخ الاحتياطية لديك. وبمجرد أن تختار نسخةً احتياطيةً يتم الاستعادة منها، سوف نقوم بتوفير مجموعة مستودع بيانات جديدة واستعادة بياناتك إليها.
س: كيف يمكنني إدارة الاحتفاظ بالنسخ الاحتياطية التلقائية والنسخ الاحتياطية؟
يمكنك استخدام وحدة إدارة تحكم AWS أو واجهة برمجة تطبيقات ModifyCluster من أجل إدارة الفترة الزمنية التي يتم خلالها الاحتفاظ بالنسخ الاحتياطية التلقائية من خلال تعديل المعلمة RetentionPeriod. إذا كنت ترغب في إيقاف تشغيل النسخ الاحتياطي التلقائي تمامًا، يمكنك إعداد فترة الاحتفاظ على الصفر (هذا الإعداد غير موصى به).
س: ماذا يحدث للنسخ الاحتياطية الخاصة بي إذا قمت بحذف مجموعة مستودع البيانات الخاصة بي؟
عندما تقوم بحذف مجموعة مستودع بيانات، يمكنك تحديد ما إذا كان يتم إنشاء نسخة احتياطية نهائية أم لا عند الحذف. ويتيح ذلك إمكانية استعادة مجموعة مستودع البيانات التي يتم حذفها في وقت لاحق. يتم الاحتفاظ بكل النسخ الاحتياطية اليدوية التي سبق إنشاؤها من مجموعة مستودع البيانات ويتم إصدار الفواتير بشأنها حسب أسعار HAQM S3 القياسية، إلا إذا اخترت حذفها.
المراقبة والصيانة
س: كيف يمكنني مراقبة أداء مجموعة مستودع بيانات HAQM Redshift؟
تتوفر قياسات استخدام الحوسبة، واستخدام التخزين، وحركة مرور القراءة/الكتابة إلى مجموعة مستودع بيانات HAQM Redshift مجانًا عبر وحدة إدارة تحكم AWS أو واجهات برمجة تطبيقات HAQM CloudWatch. يمكنك كذلك إضافة قياسات إضافية مُعرَّفة من قِبل المستخدم من خلال وظيفة القياسات المُخصَّصة لـ HAQM CloudWatch. توفِّر وحدة إدارة تحكم AWS لوحة معلومات مراقبة تساعدك في مراقبة سلامة وأداء كل مجموعاتك. كما يوفر HAQM Redshift معلومات حول أداء الاستعلام والمجموعة عبر وحدة إدارة تحكم AWS. وتتيح لك هذه المعلومات القدرة على رؤية أي من المستخدمين والمجموعات التي تستهلك أكبر قدر من موارد النظام لتشخيص مشكلات الأداء من خلال الاطلاع على خطط الاستعلام وإحصاءات التنفيذ. بالإضافة إلى ذلك، يمكن رؤية استخدام الموارد في كل عقدة حوسبة لديك للتحقق من أن لديك البيانات والاستعلامات المتوازنة بشكل جيد عبر كل العقد.
س: ما المقصود بنافذة الصيانة؟ هل ستبقى مجموعة مستودع البيانات الخاصة بي متاحةً أثناء صيانة البرامج؟
يقوم HAQM Redshift بشكل دوري بتنفيذ الصيانة من أجل تطبيق الإصلاحات والتحسينات والميزات الجديدة على مجموعتك. ويمكنك تغيير نوافذ الصيانة المجدولة من خلال تعديل المجموعة، سواءً برمجيًا أو باستخدام وحدة تحكم Redshift. وخلال نوافذ الصيانة هذه، لا تكون مجموعة HAQM Redshift متاحةً للتشغيل العادي. للحصول على المزيد من المعلومات بشأن نوافذ الصيانة والجداول حسب المنطقة، اطلع على نوافذ الصيانة في دليل إدارة HAQM Redshift.
معرفة المزيد عن تسعير HAQM Redshift