لأول مرة ، تمت إضافة نموذج لغوي كبير – محرك رئيسي لإشاعة الذكاء الاصطناعي الحديثة والأمل – إلى MLPerf ، وهي مجموعة من معايير تدريب الشبكة العصبية التي كانت تسمى سابقًا أولمبياد التعلم الآلي. كانت أجهزة الكمبيوتر التي تم إنشاؤها حول وحدة معالجة الرسومات H100 من Nvidia وشرائح Habana Gaudi2 من Intel هي الأولى التي تم اختبارها على مدى السرعة التي يمكن بها أداء قطار معدل من GPT-3 ، وهو نموذج اللغة الكبير وراء ChatGPT.
تم تشغيل كمبيوتر 3،584-GPU بالتعاون بين Nvidia وموفر السحابة CoreWeave في أقل من 11 دقيقة. أصغر مشارك ، نظام 256-Gaudi2 ، فعل ذلك في ما يزيد قليلاً عن 7 ساعات. على أساس كل شريحة ، كانت أنظمة H100 أسرع 3.6 مرة في المهمة مثل Gaudi2. ومع ذلك ، كانت أجهزة الكمبيوتر Gaudi2 تعمل “بيد واحدة مقيدة خلف ظهرها” ، كما يقول جوردان بلاونر ، المدير الأول لمنتجات الذكاء الاصطناعي في إنتل ، لأن قدرة تسمى الدقة المختلطة لم يتم تمكينها بعد على الرقائق.
وفقًا لأحد التقديرات ، فإن وقت التدريب القياسي لـ Nvidia و CoreWeave لمدة 11 دقيقة قد يصل إلى حوالي يومين من التدريب الشامل.
وجد علماء الكمبيوتر أنه بالنسبة لنوع الشبكة العصبية الخاص بـ GPT-3 ، والذي يسمى شبكة المحولات ، يمكن تسريع التدريب بشكل كبير عن طريق القيام بأجزاء من العملية باستخدام عمليات حسابية أقل دقة. يمكن استخدام إصدارات أرقام الفاصلة العائمة (FP8) ذات 8 بت في طبقات معينة من الشبكة ، بينما يلزم استخدام أرقام أكثر دقة 16 بت أو 32 بت في طبقات أخرى. معرفة الطبقات التي هي المفتاح. تم بناء كل من H100 و Gaudi2 بأجهزة مختلطة الدقة ، لكن الأمر استغرق وقتًا لمهندسي كل شركة لاكتشاف الطبقات المناسبة وتمكينها. يُطلق على نظام Nvidia في H100 اسم محرك المحول ، وقد تم تشغيله بالكامل من أجل نتائج GPT-3.
سيحصل مهندسو Habana على قدرات Gaudi2’s FP8 جاهزة للتدريب على GPT-3 في سبتمبر ، كما يقول بلاونر. في تلك المرحلة ، كما يقول ، سيكون Gaudi2 “تنافسيًا” مع H100 ، ويتوقع أن يتفوق Gaudi2 على H100 على الجمع بين السعر والأداء. Gaudi2 ، لما يستحقه ، تم تصنيعه باستخدام نفس تقنية المعالجة – 7 نانومتر – مثل سابقتها H100 ، A100.
جعل GPT-3 يعمل
يقول ديف سالفاتور ، مدير قياس الذكاء الاصطناعي والحوسبة السحابية في Nvidia: “لقد غيرت نماذج اللغات الكبيرة والذكاء الاصطناعي التوليدي بشكل أساسي كيفية استخدام الذكاء الاصطناعي في السوق”. لذا كان من المهم إيجاد طريقة لقياس هذه العملاقة.
لكن تحويل GPT-3 إلى معيار صناعة مفيد لم يكن بالمهمة السهلة. قد يستغرق التدريب الكامل لشبكة المعلمة 1.75 مليار كاملة مع مجموعة بيانات تدريب كاملة أسابيع ويكلف ملايين الدولارات. يقول David Kanter ، المدير التنفيذي للمنظمة الأم MLPerf ، MLCommons: “أردنا الحفاظ على وقت التشغيل معقولًا”. “لكن هذا لا يزال بعيدًا وبعيدًا عن أكثر معاييرنا تطلبًا من الناحية الحسابية.” يمكن تشغيل معظم الشبكات المعيارية في MLPerf على معالج واحد ، لكن GPT-3 تأخذ 64 كحد أدنى ، كما يقول.
بدلاً من التدريب على مجموعة بيانات كاملة ، تدرب المشاركون على جزء تمثيلي. ولم يتدربوا حتى الانتهاء أو التقارب في لغة الصناعة. وبدلاً من ذلك ، فإن الأنظمة التي تم تدريبها إلى النقطة التي تشير إلى مزيد من التدريب ستؤدي إلى التقارب.
كانت الأنظمة التي تم إنشاؤها باستخدام Habana Gaudi2 هي الأنظمة الوحيدة غير المستندة إلى Nvidia التي شاركت في معيار GPT-3 الأولي لـ MLPerf.شركة انتل
تقول ريتيكا بوركار ، كبيرة مهندسي التعلم العميق في Nvidia ورئيسة MLPerf ، إن تحديد هذه النقطة ، والجزء الصحيح من البيانات ، والمعلمات الأخرى بحيث يمثل المعيار المعياري مهمة التدريب الكاملة التي استغرقت “الكثير من التجارب”. مجموعة العمل التدريبية.
على تويتر،
أبهي فينيغالاقدر عالم أبحاث في MosaicML أن سجل Nvidia و CoreWeave البالغ 11 دقيقة سوف يصل إلى حوالي يومين من التدريب الشامل.
سجلات التدريب H100
هذه الجولة من MLPerf لم تكن فقط حول GPT-3 ، بالطبع ؛ تتكون المسابقة من سبعة اختبارات معيارية أخرى: التعرف على الصور ؛ تجزئة التصوير الطبي نسختين من اكتشاف الكائن ؛ التعرف على الكلام؛ معالجة اللغة الطبيعية؛ والتوصية. يتم تقييم كل نظام كمبيوتر في الوقت الذي يستغرقه تدريب الشبكة العصبية على مجموعة بيانات معينة بدقة معينة. يتم تصنيفها في ثلاث فئات: أنظمة الحوسبة السحابية ، والأنظمة المحلية المتاحة ، وأنظمة المعاينة ، والتي من المقرر أن تصبح متاحة في غضون ستة أشهر.
بالنسبة لهذه المعايير الأخرى ، شاركت Nvidia إلى حد كبير في معركة بالوكالة ضد نفسها. كان معظم الوافدين من صانعي الأنظمة مثل Dell و Gigabyte وما شابه ، لكنهم جميعًا يستخدمون Nvidia GPUs. تم تشغيل ثمانين من 88 إدخالًا من قبلهم ، وحوالي نصف هؤلاء استخدموا H100 ، وهي شريحة مصنوعة باستخدام عملية 5 نانومتر من شركة Taiwan Semiconductors Manufacturing Co. قام CoreWeave بتعيين السجلات لكل فئة من الفئات الثماني.
بالإضافة إلى إضافة GPT-3 ، قامت MLPerf بترقية اختبار نظام التوصية بشكل كبير إلى معيار يسمى DLRM DCN-V2. يقول كانتر: “تعتبر التوصية حقًا أمرًا بالغ الأهمية في العصر الحديث ، لكنها غالبًا ما تكون بطلاً غير معروف”. نظرًا للمخاطر التي تحيط بالمعلومات الشخصية التي يمكن تحديدها في مجموعة البيانات ، فإن “التوصية من بعض النواحي هي أصعب شيء من أجل وضع مقياس مرجعي له” ، كما يقول.
ويضيف أن DLRM DCN-V2 الجديد يهدف إلى مطابقة الصناعة التي تستخدمها بشكل أفضل. تتطلب عمليات الذاكرة خمس مرات ، كما أن الشبكة أكثر تعقيدًا من الناحية الحسابية. يبلغ حجم مجموعة البيانات التي تم التدريب عليها حوالي أربعة أضعاف حجم 1 تيرابايت التي استخدمتها سابقتها.
تستطيع أن ترى كل النتائج هنا.
من مقالات موقعك
مقالات ذات صلة حول الويب
اكتشاف المزيد من عرب نيوز للتقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.