مثيلات HAQM EC2 Inf2

الحصول على أداء عالٍ بأقل تكلفة في HAQM EC2 لاستدلال الذكاء الاصطناعي المولّد

ما سبب أهمية مثيلات HAQM EC2 Inf2؟

صُممت مثيلات Inf2 الخاصة بـ HAQM Elastic Compute Cloud‏ (HAQM EC2) لغرض استدلال التعلم العميق (DL). إنها توفر أداءً عاليًا بأقل تكلفة في HAQM EC2 لنماذج الذكاء الاصطناعي (AI) المولّد، بما في ذلك نماذج اللغة الكبيرة (LLM) ومحولات الرؤية. يمكنك استخدام مثيلات Inf2 لتشغيل تطبيقات الاستدلال لتلخيص النص وإنشاء الأكواد وإنشاء الفيديو والصور والتعرف على الكلام والتخصيص واكتشاف الاحتيال والمزيد.

يتم تشغيل مثيلات Inf2 بواسطة AWS Inferentia2، وهي شريحة AWS Inferentia من الجيل الثاني. تعمل مثيلات Inf2 على رفع أداء Inf1 من خلال توفير أداء حوسبة أعلى بمقدار 3 مرات، وذاكرة تسريع إجمالية أكبر بمقدار 4 مرات، وإنتاجية أعلى تصل إلى 4 مرات، وزمن انتقال أقل بما يصل إلى 10 أضعاف. مثيلات Inf2 هي أول مثيلات محسّنة للاستدلال في HAQM EC2 لدعم الاستدلال الموزع القابل للتوسعة مع اتصال فائق السرعة بين شرائح Inferentia. يمكنك الآن نشر النماذج بكفاءة وفعالية من حيث التكلفة مع مئات المليارات من المعلمات عبر شرائح متعددة على مثيلات Inf2.

تساعد AWS Neuron SDK المطورين على نشر النماذج على شرائح AWS Inferentia (وتدريبهم على شرائح AWS Trainium). يتكامل أصلاً مع أطر العمل، مثل PyTorch وTensorFlow، بحيث يمكنك الاستمرار في استخدام عمليات سير العمل الحالية ورمز التطبيق والتشغيل على مثيلات Inf2.

الفوائد

مثيلات Inf2 هي المثيلات الأولى المحسّنة للاستدلال في HAQM EC2 لدعم الاستدلال الموزع على نطاق واسع. يمكنك الآن نشر النماذج بكفاءة مع مئات المليارات من المعلمات عبر شرائح Inferentia المتعددة على مثيلات Inf2، باستخدام الاتصال فائق السرعة بين الرقائق.

تم تصميم مثيلات Inf2 لتقديم أداء عالٍ بأقل تكلفة في HAQM EC2 لعمليات نشر التعلم العميق (DL). إنها توفر إنتاجية أعلى تصل إلى 4 مرات ووقت استجابة أقل بما يصل إلى 10 أضعاف من مثيلات HAQM EC2 Inf1. توفر مثيلات Inf2 أداء سعريًا أفضل بنسبة تصل إلى 40% مقارنة بمثيلات HAQM EC2 الأخرى المماثلة.

استخدم AWS Neuron SDK لاستخراج الأداء الكامل لمثيلات Inf2. باستخدام Neuron، يمكنك استخدام أطر العمل الحالية مثل PyTorch وTensorFlow والحصول على أداء محسن خارج الصندوق للنماذج في المستودعات الشائعة مثل Hugging Face. تدعم Neuron عمليات تكامل وقت التشغيل مع أدوات الخدمة مثل TorchServe وTensorFlow Serving. كما أنه يساعد على تحسين الأداء باستخدام ملف التعريف المدمج وأدوات تصحيح الأخطاء مثل Neuron-Top ويتكامل مع أدوات التصور الشائعة مثل TensorBoard.

توفر مثيلات Inf2 أداءً أفضل بنسبة تصل إلى 50% لكل واط مقارنة بمثيلات HAQM EC2 المماثلة الأخرى. تستخدم هذه المثيلات وشرائح Inferentia2 الأساسية عمليات السيليكون المتقدمة وتحسينات الأجهزة والبرامج لتوفير كفاءة عالية للطاقة عند تشغيل نماذج التعلم العميق (DL) على نطاق واسع. استخدم مثيلات Inf2 للمساعدة في تحقيق أهداف الاستدامة عند نشر نماذج كبيرة جدًا.

المزايا

يتم تشغيل مثيلات Inf2 بما يصل إلى 12 شريحة AWS Inferentia2 متصلة بـ NeuronLink فائق السرعة للاتصالات الجماعية المبسطة. وهي توفر ما يصل إلى 2.3 بيتافلوب من الحوسبة وسرعة أعلى تصل إلى 4 مرات وزمن وصول أقل بـ 10 مرات من مثيلات Inf1.

لاستيعاب طرازات التعلم العميق (DL) الكبيرة، توفر مثيلات Inf2 ما يصل إلى 384 جيجابايت من ذاكرة المسرّع المشتركة (32 جيجابايت HBM في كل شريحة Inferentia2، أكبر بـ 4 مرات من الجيل الأول من Inferentia) مع 9.8 تيرابايت/ثانية من إجمالي عرض النطاق الترددي للذاكرة (أسرع 10 مرات من الجيل الأول من Inferentia).

للاتصال السريع بين شرائح Inferentia2، تدعم مثيلات Inf2 192 جيجابايت/ثانية من NeuronLink، وهو اتصال عالي السرعة وغير قابل للحظر. Inf2 هو المثيل الوحيد المحسّن للاستدلال الذي يقدم هذا الاتصال البيني، وهي ميزة لا تتوفر إلا في حالات التدريب الأكثر تكلفة. بالنسبة للنماذج الكبيرة جدًا التي لا تتناسب مع شريحة واحدة، تتدفق البيانات مباشرة بين الرقائق باستخدام NeuronLink، متجاوزة وحدة المعالجة المركزية (CPU) تمامًا. باستخدام NeuronLink، يدعم Inf2 الاستدلال الموزع بشكل أسرع ويحسن السرعة ووقت الاستجابة.

يدعم Inferentia2 نوع بيانات FP32 وTF32 وBF16 وFP16 وUINT8 ونوع بيانات FP8 الجديد القابل للتكوين (cFP8). يمكن لـ AWS Neuron أخذ نماذج FP32 وFP16 عالية الدقة وإرسالها تلقائيًا إلى أنواع بيانات منخفضة الدقة مع تحسين الدقة والأداء. يعمل البث التلقائي على تقليل الوقت اللازم للتسويق عن طريق إزالة الحاجة إلى إعادة التدريب بدقة أقل وتمكين الاستدلال عالي الأداء باستخدام أنواع البيانات الأصغر.

لدعم الوتيرة السريعة لابتكار التعلم العميق (DL)، تحتوي مثيلات Inf2 على العديد من الابتكارات التي تجعلها مرنة وقابلة للتمديد لنشر نماذج التعلم العميق (DL) المتطورة باستمرار. تحتوي مثيلات Inf2 على تحسينات للأجهزة ودعم البرامج لأشكال الإدخال الديناميكية. للسماح بدعم عوامل التشغيل الجديدة في المستقبل، فإنها تدعم عوامل التشغيل المخصصة المكتوبة بلغة C++. كما أنها تدعم التقريب العشوائي، وهي طريقة للتقريب احتمالي لتحقيق أداء عالٍ ودقة أعلى مقارنة بأنماط التقريب القديمة. 

تفاصيل المنتج

حجم المثيل شرائح Inferentia2 مسرّع
الذاكرة
(جيجابايت)
وحدة المعالجة المركزية الافتراضية الذاكرة
(جيبي بايت)
التخزين
المحلي
الربط
بين الشرائح
عرض نطاق
الشبكة
(جيجابت في الثانية)
عرض نطاق
الشبكة
(جيجابت في الثانية)
السعر عند الطلب مثيل محجوز لمدة عام واحد مثيل محجوز لمدة 3 أعوام
inf2.xlarge 1 32 4 16 EBS فقط غير قابل للتطبيق ما يصل إلى 15 ما يصل إلى 10 0.76 USD 0.45 USD 0.30 USD
inf2.8xlarge 1 32 32 128 EBS فقط غير قابل للتطبيق ما يصل إلى 25 10 USD 1.97 1.81 USD USD 0.79
inf2.24xlarge 6 192 96 384 EBS فقط نعم 50 30 6.49 USD USD 3.89 USD 2.60
inf2.48xlarge 12 384 192 768 EBS فقط نعم 100 60 USD 12.98 USD 7.79 USD 5.19

شهادات الشركاء والعملاء

فيما يلي بعض الأمثلة على كيفية تحقيق العملاء والشركاء لأهداف أعمالهم باستخدام مثيلات HAQM EC2 Inf2.

  • Leonardo.ai

    يستفيد فريقنا في شركة Leonardo من الذكاء الاصطناعي المولّد لتمكين المحترفين المبدعين والمتحمسين من إنتاج أصول مرئية بجودة وسرعة واتساق أسلوب لا مثيل لها. السعر مقابل أداء AWS Inf2 باستخدام AWS Inf2، يمكننا خفض تكاليفنا بنسبة 80%، دون التضحية بالأداء، وتغيير عرض القيمة الذي يمكننا تقديمه للعملاء بشكل أساسي، وتمكين ميزاتنا الأكثر تقدمًا بسعر يسهل الوصول إليه. كما أنه يخفف من المخاوف بشأن التكلفة وتوافر السعة لخدمات الذكاء الاصطناعي الإضافية لدينا، والتي تزداد أهميتها مع نمونا وتوسعنا. إنها تقنية رئيسية بالنسبة لنا بينما نواصل دفع عجلة ما هو ممكن مع الذكاء الاصطناعي المولّد، مما يتيح حقبة جديدة من الإبداع والقوة التعبيرية لمستخدمينا.

    Pete Werner، رئيس الذكاء الاصطناعي (Head of AI) في Leonardo.ai
  • Runway

    في Runway، تتيح مجموعتنا من أدوات AI Magic Tools لمستخدمينا إنشاء محتوى وتحريره بشكل لم يسبق له مثيل. نحن نعمل باستمرار على دفع حدود ما هو ممكن من خلال إنشاء المحتوى المدعوم بالذكاء الاصطناعي، ومع زيادة تعقيد نماذج الذكاء الاصطناعي، يمكن أن تصبح تكاليف البنية التحتية الأساسية لتشغيل هذه النماذج على نطاق واسع باهظة الثمن. من خلال تعاوننا مع مثيلات HAQM EC2 Inf2 المدعومة من AWS Inferentia، يمكننا تشغيل بعض نماذجنا بسرعة أعلى تصل إلى ضعف سرعة المثيلات المماثلة القائمة على وحدة معالجة الرسومات (GPU). يتيح لنا هذا الاستنتاج عالي الأداء ومنخفض التكلفة تقديم المزيد من الميزات ونشر نماذج أكثر تعقيدًا وتقديم تجربة أفضل في نهاية المطاف لملايين المبدعين الذين يستخدمون Runway.

    Cristóbal Valenzuela، المؤسس المشارك والرئيس التنفيذي (Cofounder and CEO) لشركة Runway
  • Qualtrics

    تقوم شركة Qualtrics بتصميم وتطوير برامج إدارة الخبرة.

    في Qualtrics، ينصب تركيزنا على بناء التكنولوجيا التي تسد فجوات الخبرة للعملاء والموظفين والعلامات التجارية والمنتجات. ولتحقيق ذلك، نعمل على تطوير نماذج التعلم العميق (DL) المعقدة متعددة المهام ومتعددة الوسائط لإطلاق ميزات جديدة، مثل تصنيف النص، ووضع علامات التسلسل، وتحليل الخطاب، واستخراج العبارات الرئيسية، واستخراج الموضوعات، والتجميع، وفهم المحادثة كاملة. نظرًا لأننا نستخدم هذه النماذج الأكثر تعقيدًا في المزيد من التطبيقات، يزداد حجم البيانات غير المهيكلة، ونحتاج إلى المزيد من الحلول المحسّنة للاستدلال التي يمكنها تلبية هذه المتطلبات، مثل مثيلات Inf2، لتقديم أفضل التجارب لعملائنا. نحن متحمسون لمثيلات Inf2 الجديدة لأنها لن تسمح لنا فقط بتحقيق سرعة أعلى، مع تقليل وقت الاستجابة بشكل كبير، ولكنها تقدم أيضًا ميزات مثل الاستدلال الموزع ودعم شكل الإدخال الديناميكي المحسن، مما سيساعدنا على التوسع لتلبية احتياجات النشر بينما نمضي نحو نماذج كبيرة أكبر وأكثر تعقيدًا.

    Aaron Colak، رئيس تعلم الآلة الأساسي (Head of Core Machine Learning) في Qualtrics
  • Finch Computing

    Finch Computing هي شركة تكنولوجيا اللغات الطبيعية التي تقدم تطبيقات الذكاء الاصطناعي للحكومة والخدمات المالية وعملاء تكامل البيانات.

    لتلبية احتياجات عملائنا لمعالجة اللغة الطبيعية في الوقت الفعلي، نقوم بتطوير نماذج التعلم العميق (DL) الحديثة التي تتناسب مع أعباء العمل الإنتاج الكبيرة. يتعين علينا توفير معاملات ذات زمن استجابة منخفض وتحقيق سرعة عالية لمعالجة خلاصات البيانات العالمية. لقد قمنا بالفعل بترحيل العديد من أعباء العمل الإنتاج إلى مثيلات Inf1 وحققنا انخفاضًا بنسبة 80% في التكلفة مقارنة بوحدات معالجة الرسومات (GPUs). الآن، نعمل على تطوير نماذج أكبر وأكثر تعقيدًا تتيح معنى أعمق من النص المكتوب. يحتاج الكثير من عملائنا إلى الوصول إلى هذه الأفكار في الوقت الفعلي، وسيساعدنا الأداء على مثيلات Inf2 على توفير زمن انتقال أقل وسرعة أعلى عبر مثيلات Inf1. من خلال تحسينات أداء Inf2 وميزات Inf2 الجديدة، مثل دعم أحجام المُدخَلات الديناميكية، نعمل على تحسين كفاءة التكلفة لدينا، ورفع تجربة العملاء في الوقت الفعلي، ومساعدة عملائنا على استخلاص رؤى جديدة من بياناتهم.

    Franz Weckesser، كبير المهندسين (Chief Architect) في شركة Finch Computing
  • Money Forward Inc.

    تقدم شركة Money Forward, Inc. خدماتها للشركات والأفراد من خلال منصة مالية مفتوحة ونزيهة. وكجزء من هذه المنصة، تقدم شركة HiTTO Inc.، وهي إحدى الشركات التابعة لمجموعة Money Forward، خدمة دردشة آلية تعمل بالذكاء الاصطناعي حيث تستخدم نماذج معالجة اللغة الطبيعية (NLP) المخصصة لتلبية الاحتياجات المتنوعة لعملائها من الشركات.

    أطلقنا خدمة روبوت محادثة بالذكاء الاصطناعي على نطاق واسع على مثيلات HAQM EC2 Inf1 وقللنا وقت استجابة الاستدلال بنسبة 97% مقارنة بالمثيلات المستندة إلى وحدة معالجة الرسومات المماثلة مع تقليل التكاليف أيضًا. كنا سعداء جدًا لرؤية المزيد من التحسينات في الأداء في نتائج الاختبار الأولية على مثيلات HAQM EC2 Inf2. باستخدام نفس نموذج مُعالجة اللغة الطبيعية (NLP) المخصص، تمكنت AWS Inf2 من تقليل وقت الاستجابة بمقدار 10 مرات عبر Inf1. بينما ننتقل إلى نماذج أكبر بمليارات المعلمات، تمنحنا Inf2 الثقة في أنه يمكننا الاستمرار في تزويد عملائنا بتجربة مستخدم فائقة من البداية إلى النهاية.

    Takuya Nakade، كبير مسؤولي التكنولوجيا (CTO) في شركة Money Forward Inc.
  • Fileread

    في Fileread.ai، نقوم ببناء حلول لجعل التفاعل مع مستنداتك سهلاً مثل طرح الأسئلة عليها، وتمكين المستخدمين من العثور على ما يبحثون عنه، من جميع مستنداتهم والحصول على المعلومات الصحيحة بشكل أسرع. منذ التبديل إلى مثيل Inf2 EC2 الجديد، شهدنا تحسنًا كبيرًا في قدرات استدلال مُعالجة اللغة الطبيعية (NLP). لقد أدى التوفير في التكاليف وحده إلى تغيير قواعد اللعبة بالنسبة لنا، مما سمح لنا بتخصيص الموارد بشكل أكثر كفاءة دون التضحية بالجودة. لقد قللنا وقت الاستجابة للاستدلال بنسبة 33% مع زيادة السرعة بنسبة 50% - مما أسعد عملائنا بالتحولات الأسرع. لقد انبهر فريقنا بسرعة وأداء Inf2 مقارنة بمثيلات G5 القديمة، ومن الواضح أن هذا هو المستقبل لنشر نماذج مُعالجة اللغة الطبيعية (NLP)

    Daniel Hu، الرئيس التنفيذي (CEO) لشركة Fileread
  • Yaraku

    في Yaraku، مهمتنا هي بناء البنية التحتية التي تساعد الناس على التواصل عبر حواجز اللغة. منتجنا الرائد، YarakuZen، يُمكّن أي شخص، من المترجمين المحترفين إلى الأفراد أحاديي اللغة، من ترجمة النصوص والمستندات وتحريرها بثقة. لدعم هذه العملية، نقدم مجموعة واسعة من الأدوات المتطورة القائمة على نماذج التعلم العميق (DL)، والتي تغطي مهام مثل الترجمة، ومحاذاة الكلمات ثنائية النص، وتجزئة الجمل، ونمذجة اللغة، وغيرها الكثير. باستخدام مثيلات Inf1، تمكنا من تسريع خدماتنا لتلبية الطلب المتزايد مع تقليل تكلفة الاستدلال بأكثر من 50% مقارنة بالمثيلات المستندة إلى وحدة معالجة الرسومات (GPU). نحن ننتقل الآن إلى تطوير الجيل التالي من النماذج الأكبر التي ستتطلب القدرات المحسنة لمثيلات Inf2 لتلبية الطلب مع الحفاظ على وقت استجابة منخفض. مع Inf2، سنتمكن من توسيع نطاق نماذجنا بمقدار 10 أضعاف مع الحفاظ على سرعة مماثلة، مما يسمح لنا بتقديم مستويات أعلى من الجودة لعملائنا.

    Giovanni Giacomo، مدير معالجة اللغة الطبيعية (NLP Lead) في Yaraku
  • Hugging Face

    تتمثل مهمة Hugging Face في إضفاء الطابع الديمقراطي على تعلم الآلة (ML) الجيد لمساعدة مطوري تعلم الآلة (ML) حول العالم على حل مشكلات العالم الحقيقي. والمفتاح في ذلك هو ضمان تشغيل أحدث وأروع الموديلات بأسرع ما يمكن وبكفاءة على أفضل شرائح تعلم الآلة (ML) في السحابة. نحن متحمسون للغاية بشأن إمكانية أن تصبح Inferentia2 الطريقة القياسية الجديدة لنشر نماذج الذكاء الاصطناعي المولّد على نطاق واسع. مع Inf1، رأينا تكلفة أقل بنسبة تصل إلى 70% مقارنة بالمثيلات التقليدية المستندة إلى وحدة معالجة الرسومات (GPU)، ومع Inf2 شهدنا زمن انتقال أقل بما يصل إلى 8 أضعاف للمحولات الشبيهة بـ BERT مقارنة بـ Inferentia1. مع Inferentia2، سيكون مجتمعنا قادرًا على توسيع نطاق هذا الأداء بسهولة ليشمل نماذج اللغة الكبيرة (LLMs) على مقياس معايير 100B+، وإلى أحدث نماذج الانتشار ورؤية الكمبيوتر أيضًا.

  • PyTorch

    تعمل PyTorch على تسريع المسار من النماذج الأولية البحثية إلى عمليات نشر الإنتاج لمطوري تعلم الآلة (ML). لقد تعاوننا مع فريق AWS لتوفير دعم PyTorch الأصلي لمثيلات HAQM EC2 Inf2 الجديدة التي تعمل بنظام AWS Inferentia2. نظرًا لأن المزيد من أعضاء مجتمعنا يتطلعون إلى نشر نماذج الذكاء الاصطناعي المولّد الكبيرة، فإننا متحمسون للشراكة مع فريق AWS لتحسين الاستدلال الموزع على مثيلات Inf2 مع اتصال NeuronLink عالي السرعة بين الرقائق. مع Inf2، يمكن للمطورين الذين يستخدمون PyTorch الآن نشر نماذج اللغة الكبيرة (LLMs) الكبيرة جدًا ونماذج محولات الرؤية بسهولة. بالإضافة إلى ذلك، توفر مثيلات Inf2 إمكانات مبتكرة أخرى لمطوري PyTorch، بما في ذلك أنواع البيانات الفعالة والأشكال الديناميكية والمشغلين المخصصين والتقريب العشوائي المحسن للأجهزة، مما يجعلها مناسبة تمامًا لاعتمادها على نطاق واسع من قبل مجتمع PyTorch.

  • Nextira

    يتمثل التحدي التاريخي مع نماذج اللغة الكبيرة (LLMs)، وعلى نطاق أوسع مع تطبيقات الذكاء الاصطناعي المولّد على مستوى المؤسسة، في التكاليف المرتبطة بالتدريب وتشغيل نماذج التعلم العميق (DL) عالية الأداء. إلى جانب AWS Trainium، تزيل AWS Inferentia2 التنازلات المالية التي يقدمها عملاؤنا عندما يحتاجون إلى تدريب عالي الأداء. الآن، يمكن لعملائنا الذين يبحثون عن مزايا في التدريب والاستدلال تحقيق نتائج أفضل مقابل أموال أقل. تعمل كل من Trainium وInferentia على تسريع التوسع لتلبية حتى متطلبات التعلم العميق (DL) الأكثر تطلبًا لأكبر الشركات اليوم. سيستفيد العديد من عملاء Nextira الذين يديرون أعباء عمل كبيرة للذكاء الاصطناعي بشكل مباشر من هذه الشرائح الجديدة، مما يزيد من الكفاءة في توفير التكاليف والأداء ويؤدي إلى نتائج أسرع في أسواقهم.

    Jason Cutrer، المؤسس والرئيس التنفيذي (founder and CEO) لشركة Nextira
  • HAQM CodeWhisperer

    إن HAQM CodeWhisperer بمثابة خدمة مساعدة في إنشاء التعليمات البرمجية تستند إلى الذكاء الاصطناعي تنشئ اقتراحات لتعليمات برمجية في الوقت الفعلي أو تعليمات برمجية من سطر واحد أو كاملة في بيئة التطوير المتكاملة (IDE) لديك لمساعدتك في إنشاء البرامج بسرعة.

    باستخدام CodeWhisperer، نعمل على تحسين إنتاجية مطوري البرامج من خلال تقديم توصيات الأكواد باستخدام نماذج الذكاء الاصطناعي المولّد. لتطوير توصيات الأكواد الفعالة للغاية، قمنا بتوسيع شبكة التعلم العميق (DL) إلى مليارات المعلمات. يحتاج عملاؤنا إلى توصيات الأكواد في الوقت الفعلي أثناء الكتابة، لذلك تعد الاستجابات ذات زمن الوصول المنخفض أمرًا بالغ الأهمية. تتطلب نماذج الذكاء الاصطناعي المولّد الكبيرة حوسبة عالية الأداء لتوفير أوقات استجابة في جزء من الثانية. مع Inf2، نقدم نفس وقت الاستجابة مثل تشغيل CodeWhisperer على تدريب مثيلات GPU المحسّنة لتسلسلات الإدخال والإخراج الكبيرة. وبالتالي، تساعدنا مثيلات Inf2 في توفير التكلفة والطاقة مع تقديم أفضل تجربة ممكنة للمطورين.

    Doug Seven، المدير العام (General Manager) في HAQM CodeWhisperer
  • HAQM Search

    يقوم محرك بحث منتجات HAQM بفهرسة مليارات المنتجات، ويخدم مليارات استفسارات العملاء يوميًا، وهو أحد أكثر الخدمات استخدامًا في العالم.

    أنا متحمس جدًا للإطلاق العام لـ Inf2. إن الأداء المتفوق لـ Inf2، إلى جانب قدرتها على التعامل مع النماذج الأكبر بمليارات المعلمات، يجعلها الخيار الأمثل لخدماتنا وتمكننا من فتح إمكانيات جديدة من حيث تعقيد النموذج ودقته. بفضل التسريع الكبير والفعالية من حيث التكلفة التي تقدمها Inf2، يمكن أن يساعدنا دمجها في البنية التحتية لخدمة HAQM Search في تلبية الطلبات المتزايدة لعملائنا. نحن نخطط لتعزيز تجارب التسوق الجديدة لدينا باستخدام نماذج اللغة الكبيرة (LLMs) المولدِّة باستخدام Inf2.

    Trishul Chilimbi، نائب الرئيس في HAQM Search

بدء الاستخدام

يمكنك نشر النماذج على مثيلات Inf2 بسهولة أكبر باستخدام HAQM SageMaker وتقليل تكاليف نشر نماذج تعلم الآلة (ML) بشكل كبير وزيادة الأداء دون الحاجة إلى إدارة البنية التحتية. SageMaker هي خدمة مُدارة بالكامل وتتكامل مع أدوات MLOps. لذلك، يمكنك توسيع نطاق نشر النموذج وإدارة النماذج بشكل أكثر فعالية في الإنتاج وتقليل العبء التشغيلي.

توفر AWS Deep Learning AMIS (DLAMI) لممارسي التعلم العميق (DL) والباحثين البنية التحتية والأدوات لتسريع تعلم الآلة (DL) في السحابة، على أي نطاق. تأتي برامج تشغيل AWS Neuron مُعدة مسبقًا في DLAMI لنشر نماذج التعلم العميق (DL) على النحو الأمثل على مثيلات Inf2.

يمكنك الآن نشر مثيلات Inf2 في خدمة HAQM Elastic Kubernetes‏ (HAQM EKS)، وهي خدمة Kubernetes مُدارة بالكامل، وفي خدمة HAQM Elastic Container Service‏ (HAQM ECS)، وهي خدمة تنسيق حاويات مُدارة بالكامل. تتوفر خدمة Neuron أيضًا بتثبيت مسبق في AWS Deep Learning Containers. لمعرفة المزيد حول تشغيل الحاويات على مثيلات Inf2، راجع البرامج التعليمية لحاويات Neuron.