يوم الإثنين ، كشفت مجموعة من باحثي الذكاء الاصطناعي من Google والجامعة التقنية في برلين النقاب عن PaLM-E ، وهو نموذج متعدد الوسائط للغة المرئية (VLM) مع 562 مليار معلمة تدمج الرؤية واللغة للتحكم الآلي. يزعمون أنه أكبر VLM تم تطويره على الإطلاق ويمكنه أداء مجموعة متنوعة من المهام دون الحاجة إلى إعادة التدريب.
وفقًا لـ Google ، عند إعطائي أمرًا عالي المستوى ، مثل “أحضر لي رقائق الأرز من الدرج” ، يمكن لـ PaLM-E إنشاء خطة عمل لمنصة روبوت متنقلة بذراع (تم تطويرها بواسطة Google Robotics) وتنفيذها الإجراءات في حد ذاته.
يقوم PaLM-E بذلك عن طريق تحليل البيانات من كاميرا الروبوت دون الحاجة إلى تمثيل مشهد مُعالج مسبقًا. هذا يلغي الحاجة إلى قيام الإنسان بمعالجة البيانات مسبقًا أو التعليق عليها ويسمح بمزيد من التحكم الآلي المستقل.
كما أنه مرن ويمكن أن يتفاعل مع بيئته. على سبيل المثال ، يمكن لنموذج PaLM-E توجيه الروبوت للحصول على كيس رقائق من المطبخ – ومع دمج PaLM-E في حلقة التحكم ، يصبح مقاومًا للانقطاعات التي قد تحدث أثناء المهمة. في مثال فيديو ، يلتقط باحث الرقائق من الروبوت ويحركها ، لكن الروبوت يحدد مكان الرقائق ويمسكها مرة أخرى.
في مثال آخريتحكم نفس نموذج PaLM-E بشكل مستقل في الروبوت من خلال المهام ذات التسلسلات المعقدة التي كانت تتطلب في السابق توجيهًا بشريًا. تشرح الورقة البحثية من Google كيف تحول PaLM-E التعليمات إلى إجراءات:
نعرض أداء PaLM-E في مهام التلاعب المتنقلة المتنوعة والصعبة. نحن نتابع إلى حد كبير الإعداد في Ahn et al. (2022) ، حيث يحتاج الروبوت إلى تخطيط سلسلة من إجراءات الملاحة والمعالجة بناءً على تعليمات من قبل الإنسان. على سبيل المثال ، في ضوء التعليمات “لقد سكبت مشروبي ، هل يمكنك إحضار شيء لتنظيفه؟” ، يحتاج الروبوت إلى تخطيط تسلسل يحتوي على “1. ابحث عن إسفنجة ، 2. التقط الإسفنج ، 3. أحضرها للمستخدم ، 4. ضع الإسفنجة. ” مستوحاة من هذه المهام ، قمنا بتطوير 3 حالات استخدام لاختبار قدرات التفكير المجسدة لـ PaLM-E: توقع التكاليف ، واكتشاف الفشل ، والتخطيط طويل المدى. السياسات منخفضة المستوى مأخوذة من RT-1 (Brohan et al. ، 2022 ) ، نموذج محول يأخذ صورة RGB وتعليمات اللغة الطبيعية ، ويخرج أوامر تحكم المؤثر النهائي.
PaLM-E هو متنبئ بالرمز التالي ، ويسمى “PaLM-E” لأنه يعتمد على نموذج اللغة الكبيرة الحالي (LLM) من Google والمسمى “PaLM” (وهو مشابه للتقنية المستخدمة في ChatGPT). قامت Google بجعل PaLM “متجسدًا” من خلال إضافة المعلومات الحسية والتحكم الآلي.
نظرًا لأنه يعتمد على نموذج اللغة ، فإن PaLM-E يأخذ ملاحظات مستمرة ، مثل الصور أو بيانات المستشعر ، ويقوم بترميزها في سلسلة من المتجهات التي لها نفس حجم الرموز المميزة للغة. هذا يسمح للنموذج بـ “فهم” المعلومات الحسية بنفس الطريقة التي يعالج بها اللغة.
بالإضافة إلى محول الروبوتات RT-1 ، يستمد PaLM-E من عمل Google السابق على ViT-22B ، وهو نموذج محول الرؤية الذي تم الكشف عنه في فبراير. تم تدريب ViT-22B على العديد من المهام المرئية ، مثل تصنيف الصور ، واكتشاف الكائنات ، والتجزئة الدلالية ، وتعليق الصور.
ليست Google Robotics هي المجموعة البحثية الوحيدة التي تعمل على التحكم الآلي في الشبكات العصبية. يشبه هذا العمل بالتحديد ورقة “ChatGPT for Robotics” من Microsoft ، والتي جربت الجمع بين البيانات المرئية ونماذج اللغة الكبيرة للتحكم الآلي بطريقة مماثلة.
بغض النظر عن الروبوتات ، لاحظ باحثو Google العديد من التأثيرات المثيرة للاهتمام التي يبدو أنها تأتي من استخدام نموذج لغة كبير باعتباره جوهر PaLM-E. من ناحية ، فإنه يعرض “النقل الإيجابي” ، مما يعني أنه يمكنه نقل المعرفة والمهارات التي تعلموها من مهمة إلى أخرى ، مما يؤدي إلى “أداء أعلى بشكل ملحوظ” مقارنة بنماذج الروبوت ذات المهمة الواحدة.
هم أيضا يراقب اتجاه بمقياس نموذج: “كلما كان نموذج اللغة أكبر ، كلما حافظ على قدراته اللغوية عند التدريب على مهام اللغة المرئية والروبوتات – من الناحية الكمية ، يحتفظ نموذج 562B PaLM-E تقريبًا بجميع قدراته اللغوية.”
PaLM-E هو أكبر VLM تم الإبلاغ عنه حتى الآن. نلاحظ القدرات الناشئة مثل التسلسل متعدد الوسائط للتفكير المنطقي والاستدلال متعدد الصور ، على الرغم من تدريبنا على مطالبات من صورة واحدة فقط. على الرغم من أنه ليس محور عملنا ، فإن PaLM-E يضع معيار SOTA جديدًا على معيار OK-VQA. pic.twitter.com/9FHug25tOF
– داني دريس (DannyDriess) 7 مارس 2023
والباحثون مطالبة أن PaLM-E يعرض قدرات ناشئة مثل التفكير متعدد الوسائط (مما يسمح للنموذج بتحليل سلسلة من المدخلات التي تشمل كل من اللغة والمعلومات المرئية) والاستدلال متعدد الصور (باستخدام صور متعددة كمدخلات لعمل استنتاج أو التنبؤ) على الرغم من تدريبه على مطالبات الصورة الواحدة فقط. بهذا المعنى ، يبدو أن PaLM-E يواصل اتجاه المفاجآت الناشئة حيث تصبح نماذج التعلم العميق أكثر تعقيدًا بمرور الوقت.
يخطط باحثو Google لاستكشاف المزيد من تطبيقات PaLM-E لسيناريوهات العالم الحقيقي مثل أتمتة المنزل أو الروبوتات الصناعية. وهم يأملون أن تلهم PaLM-E مزيدًا من الأبحاث حول التفكير متعدد الوسائط والذكاء الاصطناعي المتجسد.
“Multimodal” هي كلمة طنانة سنسمعها أكثر فأكثر مع وصول الشركات إلى الذكاء الاصطناعي العام الذي سيكون ظاهريًا قادرًا على أداء المهام العامة مثل الإنسان.