
تدرِّب AI21 Labs نموذجًا لغويًا يضم 178 مليار معلمة باستخدام مثيلات HAQM EC2 P4d وPyTorch
2021
تستخدم AI21 Labs تعلّم الآلة لتطوير نماذج لغوية تركز على فهم المعنى، وفي عام 2021 حددت هدفًا لتدريب Jurassic-1 Jumbo الذي تم إصداره مؤخرًا، وهو نموذج لغوي ذاتي الانحدار يحتوي على 178 مليار معلمة. سيتمكن المطورون الذين يسجلون في الاختبار التجريبي من الوصول إلى Jurassic-1 Jumbo ويمكنهم البدء فورًا في تخصيص النموذج لحالة الاستخدام الخاصة بهم. أرادت الشركة الناشئة في مجال البرمجيات تدريب النموذج بكفاءة، لذلك بحثت في HAQM Web Services (AWS) وأنشأت حلاً باستخدام HAQM Elastic Compute Cloud (HAQM EC2)، وهي خدمة ويب توفر سعة حوسبة آمنة وقابلة لتغيير الحجم في السحابة. أدى اختيار HAQM EC2 إلى منح الشركة القدرة على التحكم في عملية التدريب، بما في ذلك تخصيص العقد.
للحصول على وظائف حوسبة وشبكات قوية، اختارت الشركة مثيلات HAQM EC2 P4d، التي توفر معدل نقل عاليًا وشبكات ذات زمن انتقال منخفض لتدريب تعلّم الآلة وتطبيقات الحوسبة عالية الأداء في السحابة. باستخدام مثيلات HAQM EC2 P4d، حصلت AI21 Labs على الأداء والذاكرة اللازمين من خلال توزيع عملية تدريب النموذج على مئات من وحدات معالجة الرسومات (GPU) لتقديم معالجة اللغة الطبيعية كخدمة عبر نموذجها Jurassic-1 Jumbo. نظرًا لأن الشركة تقوم الآن بتدريب نموذجها واسع النطاق والتحكم فيه، فإنه يمكنها العمل على تطوير نماذج جديدة بنفس الحجم والابتكار بسهولة أكبر.


"توفر مثيلات HAQM EC2 P4d شبكات ذات أداء عالٍ بسرعة 400 جيجابت في الثانية على EFA. تؤثر سرعة الاتصال الشبكي بين وحدات معالجة الرسومات بشكل مباشر على القدرة على التوسع بكفاءة والحفاظ على فعالية التكلفة عند التوسع إلى مئات وحدات معالجة الرسومات (GPU).
Opher Lieber
Opher Lieber، Technical Lead for Jurassic في AI21 Labs
تعزيز تدريب النماذج اللغوية على نطاق واسع
تسعى AI21 Labs، التي تأسست في عام 2017، إلى مهمة مختلطة: إجراء أبحاث في معالجة اللغة الطبيعية وتطوير منتجات تعمل بالذكاء الاصطناعي لدعم القراءة والكتابة. منتجها الرئيسي، Wordtune، هو مساعد ذكي للكتابة والتحرير تم إطلاقه في أكتوبر 2020 وتطور لدعم ما يقرب من مليون مستخدم. منتجها الرئيسي الآخر، AI21 Studio، يوفر وصول واجهة برمجة تطبيقات (API) إلى نماذج اللغة Jurassic-1 التابعة للشركة، بالإضافة إلى تطوير نماذج مخصصة. يقول Yoav Shoham، المؤسس المشارك والرئيس التنفيذي المشارك في AI21 Labs: "نحن جزء من مجموعة صغيرة من الشركات التي تقدم نماذج لغوية كخدمة، ما يمكّن أي شخص من المطورين المستقلين إلى الشركات متعددة الجنسيات من إنشاء تطبيقات وخدمات بالاستفادة من تكنولوجيا معالجة اللغة الطبيعية المتقدمة." "بالإضافة إلى ذلك، نسعى إلى الابتكارات العلمية ومعالجة تحديات هندسة البرمجيات التي تفرضها نماذج بهذا الحجم والتعقيد."
لتدريب أول نموذج ضخم للتعليم العميق بكفاءة ودعم احتياجات النموذج العالية من حيث التوسع والأداء، احتاجت AI21 Labs إلى حوسبة قوية وسرعة شبكات فعالة وإمكانية الوصول إلى الدعم والتوجيه التقنيين. لهذه الأسباب، بدأت الشركة في أوائل عام 2021 في تنفيذ حل على AWS، حيث اختارت تدريب النموذج باستخدام مثيلات HAQM EC2 P4d. تُنشر هذه المثيلات في كتل فائقة النطاق تسمى HAQM EC2 UltraClusters، ما يوفر أكثر من 4000 وحدة معالجة رسومات من نوع NVIDIA A100، وبنية تحتية للشبكات غير محظورة بحجم بيتابت، وتخزينًا ذا معدل نقل عالٍ وزمن انتقال منخفض.
جرى تحسين أسلوب الشركة بشكل إضافي عبر تقنية GPUDirectRDMA ذي زمن الوصول المنخفض والنطاق الترددي العالي، جنبًا إلى جنب مع محول النسيج المرن Elastic Fabric Adapter (EFA)، وهو واجهة شبكة لمثيلات HAQM EC2 تمكن العملاء من تشغيل تطبيقات تحتاج إلى مستويات كبيرة من الاتصالات بين العقد على نطاق واسع على AWS. نظرًا لحجم النموذج الكبير، احتاج الفريق إلى استخدام المعالجة المتوازية لتحقيق وقت تدريب فعَّال، لذلك نظر إلى قدرات الشبكات على AWS لدعم التدريب الموزع وتوازي النماذج. يقول Opher Lieber، Jurassic technical lead في AI21 Labs: "توفر مثيلات HAQM EC2 P4d شبكات عالية الأداء بسرعة 400 جيجابت في الثانية على EFA". "تؤثر سرعة الاتصال الشبكي بين وحدات معالجة الرسومات بشكل مباشر على القدرة على التوسع بكفاءة والحفاظ على فعالية التكلفة عند التوسع إلى مئات وحدات معالجة الرسومات (GPU)."
تحقيق إنجازات تدريب رئيسية على AWS
بدأت AI21 Labs من خلال طرح قاعدة التعليمات البرمجية الخاصة بها على مثيلات HAQM EC2 P4d المنشطة لـ EFA، ثم اختبرت الشركة وتحققت من أداء وقابلية التوسع الفعَّالة لنهج التدريب متعدد العقد. بعد ذلك، أطلق الفريق تدريبًا سريعًا للنموذج ذي الحجم الكامل - الذي يستخدم المئات من وحدات معالجة الرسومات - للتحقق من الوظيفة والأداء. من تلك النقطة، تمكنت من البدء في تدريب نموذجها Jurassic-1 Jumbo على AWS. للتنسيق، اختارت الشركة حلاً داخليًا يخصص المثيلات باستخدام حزمة تطوير البرمجيات AWS - حزمة AWS SDK لـ Python (Boto3)، التي تسهل دمج تطبيق Python أو مكتبة أو نص برمجي خاص بالعميل مع خدمات AWS المختلفة.
للتخزين، اختارت AI21 Labs خدمة HAQM Simple Storage Service (HAQM S3)، التي توفر مستوى رائدًا في الصناعة من قابلية التوسع وتوافر البيانات والأمان والأداء. يقول Lieber: "لقد تمكنا من الوصول إلى أداء جيد جدًا على HAQM S3 بالاستعانة بفريق AWS - لذا كان خيارًا سهلاً بسبب الأداء والسعر على حد سواء". يستخدم الفريق حاويات HAQM S3 لتخزين نقاط التفتيش وتحميلها بكفاءة وبطريقة موزَّعة. لتسجيل تقدم التدريب والأحداث المتعلقة به، يستخدم الفريق HAQM CloudWatch، وهي خدمة للمراقبة والملاحظة.
في أثناء تنفيذ حلها، استفادت AI21 Labs من الدعم المقدم من AWS. استشار فريقها متخصصي AWS الذين قدموا إرشادات حول الأسئلة والمخاوف المتعلقة بمستوى الخدمة والبنية والأجهزة. علاوةً على ذلك، قامت الشركة بتحسين أداء Jurassic-1 Jumbo باستخدام PyTorch على AWS، وهو إطار عمل للتعليم العميق مفتوح المصدر يسهل عملية تطوير نماذج تعلّم الآلة ونشرها في بيئات الإنتاج.
أكملت AI21 Labs التدريب على مدار عدة أشهر، وانتهى في يونيو 2021. يحتوي النموذج الضخم الجديد، وهو نموذج لغوي ذاتي الانحدار، على 178 مليار معلمة، وهو ما يضاهي ما يقدمه منافسو الشركة. يوفر أيضًا مفردات متباينة تبلغ 256000 عنصر توفر إمكانات تمثيل نص واسعة النطاق بالإضافة إلى دعم الكيانات المسماة. تقدم الشركة الآن نموذج Jurassic-1 Jumbo (إلى جانب نظيره، Jurassic-1 Large، الذي يحتوي على 7 مليارات معلمة) في مرحلة تجريبية مفتوحة من خلال عرض AI21 Studio الخاص بالشركة. وباستخدام الخدمة، يمكن لمجموعة كبيرة من المطورين بناء منتجات على نموذج Jurassic-1 Jumbo، وقد شهدت AI21 Labs بالفعل اعتمادًا في العديد من الصناعات، بما في ذلك التسويق وإنشاء المحتوى والألعاب والأبحاث الطبية والسيارات والاتصالات والتمويل.
استخدام نموذجها للابتكار بمرونة
نظرًا لأن AI21 Labs تمتلك نموذجها وتتمتع بإمكانية الوصول المباشر إليه، فإنه يمكنها التكيف والابتكار دون الاعتماد على أطراف ثالثة ويمكنها استكشاف أهداف الابتكار المستمرة، والتي تعد جزءًا أساسيًا من مهمتها. تعمل AI21 Labs في الوقت الراهن على تطوير نماذج أولية إضافية، وتعتزم أيضًا تدريبها على نطاق واسع. يقول Shoham: "سيظل التدريب وامتلاك النماذج الضخمة الخاصة بنا عاملاً مميزًا مهمًا في كل من عروض Wordtune وAI21 Studio لدينا".
نبذة عن AI21 Labs
AI21 Labs، التي يقع مقرها الرئيسي في تل أبيب بإسرائيل، تطور نماذج لغوية كبيرة الحجم تركز على فهم الدلالات والسياق وتقدم المساعدة في الكتابة القائمة على الذكاء الاصطناعي من خلال منتجها الرئيسي، Wordtune، والمساعدة في القراءة من خلال أداة القراءة التي تعمل بالذكاء الاصطناعي، Wordtune Read.
مزايا AWS
- قابلية التوسع لتشمل مئات وحدات معالجة الرسومات بطريقة تتسم بالكفاءة وتوفير التكاليف
- دعم التدريب الموزع وتوازي النماذج على PyTorch
- بناء المعرفة لتطوير النماذج على نطاق واسع
- تدريب نموذجها الخاص، ما يدعم الابتكار والمرونة.
- تطوير نموذج لغوي يضم 178 مليار معلمة ومعجم مفردات يضم 256000 مدخل
- دعم تطوير التطبيقات باستخدام نموذجها
خدمات AWS المُستخدمة
مثيلات HAQM EC2 P4d
توفر مثيلات HAQM EC2 P4d أعلى أداء لتدريب تعلم الآلة (ML) وتطبيقات الحوسبة عالية الأداء (HPC) في السحابة. تعمل مثيلات P4d بواسطة أحدث وحدات معالجة الرسومات NVIDIA A100 Tensor Core GPUs وتوفر شبكة رائدة في الصناعة ذات معدل نقل عالٍ وزمن انتقال منخفض.
Elastic Fabric Adapter
تُعد Elastic Fabric Adapter (EFA) واجهة شبكة لمثيلات HAQM EC2 التي تمكن العملاء من تشغيل التطبيقات التي تتطلب مستويات عالية من الاتصالات بين العقد على نطاق واسع على AWS. تعمل واجهة تجاوز الأجهزة الخاصة بنظام التشغيل (OS) المصمم خصيصًا على تحسين أداء الاتصالات بين المثيلات، وهو أمر بالغ الأهمية لتوسيع نطاق هذه التطبيقات.
HAQM S3
خدمة HAQM Simple Storage Service (HAQM S3) عبارة عن خدمة تخزين كائنات توفّر مستوىً رائدًا ومتميزًا من حيث الأداء، والأمان، والقابلية للتوسع، وتوافر البيانات. يمكن للعملاء من جميع الأحجام وجميع القطاعات تخزين وحماية أي كمية من البيانات ولأي حالة استخدام تقريبًا، مثل مخازن البيانات، والتطبيقات السحابة الأصلية، وتطبيقات الأجهزة المحمولة.
بدء الاستخدام
تشهد الشركات بمختلف أحجامها وفي كل المجالات تحولاً في أعمالها كل يوم باستخدام AWS. اتصل بخبرائنا وابدأ رحلتك السحابية لدى AWS اليوم.