أخبار التقنية

يعد PaLM-E من Google عقلًا آليًا متخصصًا يأخذ الأوامر


تكبير / ذراع آلية يتحكم فيها PaLM-E تصل إلى كيس من الرقائق في فيديو توضيحي.

بحث جوجل

يوم الإثنين ، كشفت مجموعة من باحثي الذكاء الاصطناعي من Google والجامعة التقنية في برلين النقاب عن PaLM-E ، وهو نموذج متعدد الوسائط للغة المرئية (VLM) مع 562 مليار معلمة تدمج الرؤية واللغة للتحكم الآلي. يزعمون أنه أكبر VLM تم تطويره على الإطلاق ويمكنه أداء مجموعة متنوعة من المهام دون الحاجة إلى إعادة التدريب.

وفقًا لـ Google ، عند إعطائي أمرًا عالي المستوى ، مثل “أحضر لي رقائق الأرز من الدرج” ، يمكن لـ PaLM-E إنشاء خطة عمل لمنصة روبوت متنقلة بذراع (تم تطويرها بواسطة Google Robotics) وتنفيذها الإجراءات في حد ذاته.

يقوم PaLM-E بذلك عن طريق تحليل البيانات من كاميرا الروبوت دون الحاجة إلى تمثيل مشهد مُعالج مسبقًا. هذا يلغي الحاجة إلى قيام الإنسان بمعالجة البيانات مسبقًا أو التعليق عليها ويسمح بمزيد من التحكم الآلي المستقل.

في فيديو توضيحي مقدم من Google ، ينفذ PaLM-E “أحضر لي رقائق الأرز من الدرج” ، والذي يتضمن خطوات تخطيط متعددة بالإضافة إلى دمج التعليقات المرئية من كاميرا الروبوت.

كما أنه مرن ويمكن أن يتفاعل مع بيئته. على سبيل المثال ، يمكن لنموذج PaLM-E توجيه الروبوت للحصول على كيس رقائق من المطبخ – ومع دمج PaLM-E في حلقة التحكم ، يصبح مقاومًا للانقطاعات التي قد تحدث أثناء المهمة. في مثال فيديو ، يلتقط باحث الرقائق من الروبوت ويحركها ، لكن الروبوت يحدد مكان الرقائق ويمسكها مرة أخرى.

في مثال آخريتحكم نفس نموذج PaLM-E بشكل مستقل في الروبوت من خلال المهام ذات التسلسلات المعقدة التي كانت تتطلب في السابق توجيهًا بشريًا. تشرح الورقة البحثية من Google كيف تحول PaLM-E التعليمات إلى إجراءات:

نعرض أداء PaLM-E في مهام التلاعب المتنقلة المتنوعة والصعبة. نحن نتابع إلى حد كبير الإعداد في Ahn et al. (2022) ، حيث يحتاج الروبوت إلى تخطيط سلسلة من إجراءات الملاحة والمعالجة بناءً على تعليمات من قبل الإنسان. على سبيل المثال ، في ضوء التعليمات “لقد سكبت مشروبي ، هل يمكنك إحضار شيء لتنظيفه؟” ، يحتاج الروبوت إلى تخطيط تسلسل يحتوي على “1. ابحث عن إسفنجة ، 2. التقط الإسفنج ، 3. أحضرها للمستخدم ، 4. ضع الإسفنجة. ” مستوحاة من هذه المهام ، قمنا بتطوير 3 حالات استخدام لاختبار قدرات التفكير المجسدة لـ PaLM-E: توقع التكاليف ، واكتشاف الفشل ، والتخطيط طويل المدى. السياسات منخفضة المستوى مأخوذة من RT-1 (Brohan et al. ، 2022 ) ، نموذج محول يأخذ صورة RGB وتعليمات اللغة الطبيعية ، ويخرج أوامر تحكم المؤثر النهائي.

PaLM-E هو متنبئ بالرمز التالي ، ويسمى “PaLM-E” لأنه يعتمد على نموذج اللغة الكبيرة الحالي (LLM) من Google والمسمى “PaLM” (وهو مشابه للتقنية المستخدمة في ChatGPT). قامت Google بجعل PaLM “متجسدًا” من خلال إضافة المعلومات الحسية والتحكم الآلي.

نظرًا لأنه يعتمد على نموذج اللغة ، فإن PaLM-E يأخذ ملاحظات مستمرة ، مثل الصور أو بيانات المستشعر ، ويقوم بترميزها في سلسلة من المتجهات التي لها نفس حجم الرموز المميزة للغة. هذا يسمح للنموذج بـ “فهم” المعلومات الحسية بنفس الطريقة التي يعالج بها اللغة.

فيديو توضيحي مقدم من Google يعرض روبوتًا موجهًا بواسطة PaLM-E يتبع التعليمات ، “أحضر لي نجمة خضراء”. يقول الباحثون إن النجمة الخضراء “هي شيء لم يتعرض له هذا الروبوت بشكل مباشر”.

بالإضافة إلى محول الروبوتات RT-1 ، يستمد PaLM-E من عمل Google السابق على ViT-22B ، وهو نموذج محول الرؤية الذي تم الكشف عنه في فبراير. تم تدريب ViT-22B على العديد من المهام المرئية ، مثل تصنيف الصور ، واكتشاف الكائنات ، والتجزئة الدلالية ، وتعليق الصور.

ليست Google Robotics هي المجموعة البحثية الوحيدة التي تعمل على التحكم الآلي في الشبكات العصبية. يشبه هذا العمل بالتحديد ورقة “ChatGPT for Robotics” من Microsoft ، والتي جربت الجمع بين البيانات المرئية ونماذج اللغة الكبيرة للتحكم الآلي بطريقة مماثلة.

بغض النظر عن الروبوتات ، لاحظ باحثو Google العديد من التأثيرات المثيرة للاهتمام التي يبدو أنها تأتي من استخدام نموذج لغة كبير باعتباره جوهر PaLM-E. من ناحية ، فإنه يعرض “النقل الإيجابي” ، مما يعني أنه يمكنه نقل المعرفة والمهارات التي تعلموها من مهمة إلى أخرى ، مما يؤدي إلى “أداء أعلى بشكل ملحوظ” مقارنة بنماذج الروبوت ذات المهمة الواحدة.

هم أيضا يراقب اتجاه بمقياس نموذج: “كلما كان نموذج اللغة أكبر ، كلما حافظ على قدراته اللغوية عند التدريب على مهام اللغة المرئية والروبوتات – من الناحية الكمية ، يحتفظ نموذج 562B PaLM-E تقريبًا بجميع قدراته اللغوية.”

والباحثون مطالبة أن PaLM-E يعرض قدرات ناشئة مثل التفكير متعدد الوسائط (مما يسمح للنموذج بتحليل سلسلة من المدخلات التي تشمل كل من اللغة والمعلومات المرئية) والاستدلال متعدد الصور (باستخدام صور متعددة كمدخلات لعمل استنتاج أو التنبؤ) على الرغم من تدريبه على مطالبات الصورة الواحدة فقط. بهذا المعنى ، يبدو أن PaLM-E يواصل اتجاه المفاجآت الناشئة حيث تصبح نماذج التعلم العميق أكثر تعقيدًا بمرور الوقت.

يخطط باحثو Google لاستكشاف المزيد من تطبيقات PaLM-E لسيناريوهات العالم الحقيقي مثل أتمتة المنزل أو الروبوتات الصناعية. وهم يأملون أن تلهم PaLM-E مزيدًا من الأبحاث حول التفكير متعدد الوسائط والذكاء الاصطناعي المتجسد.

“Multimodal” هي كلمة طنانة سنسمعها أكثر فأكثر مع وصول الشركات إلى الذكاء الاصطناعي العام الذي سيكون ظاهريًا قادرًا على أداء المهام العامة مثل الإنسان.




اكتشاف المزيد من عرب نيوز للتقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من عرب نيوز للتقنية

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading