أخبار التقنية

يعد PaLM-E من Google عقلًا آليًا متخصصًا يأخذ الأوامر


تكبير / ذراع آلية يتحكم فيها PaLM-E تصل إلى كيس من الرقائق في فيديو توضيحي.

بحث جوجل

يوم الإثنين ، كشفت مجموعة من باحثي الذكاء الاصطناعي من Google والجامعة التقنية في برلين النقاب عن PaLM-E ، وهو نموذج متعدد الوسائط للغة المرئية (VLM) مع 562 مليار معلمة تدمج الرؤية واللغة للتحكم الآلي. يزعمون أنه أكبر VLM تم تطويره على الإطلاق ويمكنه أداء مجموعة متنوعة من المهام دون الحاجة إلى إعادة التدريب.

وفقًا لـ Google ، عند إعطائي أمرًا عالي المستوى ، مثل “أحضر لي رقائق الأرز من الدرج” ، يمكن لـ PaLM-E إنشاء خطة عمل لمنصة روبوت متنقلة بذراع (تم تطويرها بواسطة Google Robotics) وتنفيذها الإجراءات في حد ذاته.

يقوم PaLM-E بذلك عن طريق تحليل البيانات من كاميرا الروبوت دون الحاجة إلى تمثيل مشهد مُعالج مسبقًا. هذا يلغي الحاجة إلى قيام الإنسان بمعالجة البيانات مسبقًا أو التعليق عليها ويسمح بمزيد من التحكم الآلي المستقل.

في فيديو توضيحي مقدم من Google ، ينفذ PaLM-E “أحضر لي رقائق الأرز من الدرج” ، والذي يتضمن خطوات تخطيط متعددة بالإضافة إلى دمج التعليقات المرئية من كاميرا الروبوت.

كما أنه مرن ويمكن أن يتفاعل مع بيئته. على سبيل المثال ، يمكن لنموذج PaLM-E توجيه الروبوت للحصول على كيس رقائق من المطبخ – ومع دمج PaLM-E في حلقة التحكم ، يصبح مقاومًا للانقطاعات التي قد تحدث أثناء المهمة. في مثال فيديو ، يلتقط باحث الرقائق من الروبوت ويحركها ، لكن الروبوت يحدد مكان الرقائق ويمسكها مرة أخرى.

في مثال آخريتحكم نفس نموذج PaLM-E بشكل مستقل في الروبوت من خلال المهام ذات التسلسلات المعقدة التي كانت تتطلب في السابق توجيهًا بشريًا. تشرح الورقة البحثية من Google كيف تحول PaLM-E التعليمات إلى إجراءات:

نعرض أداء PaLM-E في مهام التلاعب المتنقلة المتنوعة والصعبة. نحن نتابع إلى حد كبير الإعداد في Ahn et al. (2022) ، حيث يحتاج الروبوت إلى تخطيط سلسلة من إجراءات الملاحة والمعالجة بناءً على تعليمات من قبل الإنسان. على سبيل المثال ، في ضوء التعليمات “لقد سكبت مشروبي ، هل يمكنك إحضار شيء لتنظيفه؟” ، يحتاج الروبوت إلى تخطيط تسلسل يحتوي على “1. ابحث عن إسفنجة ، 2. التقط الإسفنج ، 3. أحضرها للمستخدم ، 4. ضع الإسفنجة. ” مستوحاة من هذه المهام ، قمنا بتطوير 3 حالات استخدام لاختبار قدرات التفكير المجسدة لـ PaLM-E: توقع التكاليف ، واكتشاف الفشل ، والتخطيط طويل المدى. السياسات منخفضة المستوى مأخوذة من RT-1 (Brohan et al. ، 2022 ) ، نموذج محول يأخذ صورة RGB وتعليمات اللغة الطبيعية ، ويخرج أوامر تحكم المؤثر النهائي.

PaLM-E هو متنبئ بالرمز التالي ، ويسمى “PaLM-E” لأنه يعتمد على نموذج اللغة الكبيرة الحالي (LLM) من Google والمسمى “PaLM” (وهو مشابه للتقنية المستخدمة في ChatGPT). قامت Google بجعل PaLM “متجسدًا” من خلال إضافة المعلومات الحسية والتحكم الآلي.

نظرًا لأنه يعتمد على نموذج اللغة ، فإن PaLM-E يأخذ ملاحظات مستمرة ، مثل الصور أو بيانات المستشعر ، ويقوم بترميزها في سلسلة من المتجهات التي لها نفس حجم الرموز المميزة للغة. هذا يسمح للنموذج بـ “فهم” المعلومات الحسية بنفس الطريقة التي يعالج بها اللغة.

فيديو توضيحي مقدم من Google يعرض روبوتًا موجهًا بواسطة PaLM-E يتبع التعليمات ، “أحضر لي نجمة خضراء”. يقول الباحثون إن النجمة الخضراء “هي شيء لم يتعرض له هذا الروبوت بشكل مباشر”.

بالإضافة إلى محول الروبوتات RT-1 ، يستمد PaLM-E من عمل Google السابق على ViT-22B ، وهو نموذج محول الرؤية الذي تم الكشف عنه في فبراير. تم تدريب ViT-22B على العديد من المهام المرئية ، مثل تصنيف الصور ، واكتشاف الكائنات ، والتجزئة الدلالية ، وتعليق الصور.

ليست Google Robotics هي المجموعة البحثية الوحيدة التي تعمل على التحكم الآلي في الشبكات العصبية. يشبه هذا العمل بالتحديد ورقة “ChatGPT for Robotics” من Microsoft ، والتي جربت الجمع بين البيانات المرئية ونماذج اللغة الكبيرة للتحكم الآلي بطريقة مماثلة.

بغض النظر عن الروبوتات ، لاحظ باحثو Google العديد من التأثيرات المثيرة للاهتمام التي يبدو أنها تأتي من استخدام نموذج لغة كبير باعتباره جوهر PaLM-E. من ناحية ، فإنه يعرض “النقل الإيجابي” ، مما يعني أنه يمكنه نقل المعرفة والمهارات التي تعلموها من مهمة إلى أخرى ، مما يؤدي إلى “أداء أعلى بشكل ملحوظ” مقارنة بنماذج الروبوت ذات المهمة الواحدة.

هم أيضا يراقب اتجاه بمقياس نموذج: “كلما كان نموذج اللغة أكبر ، كلما حافظ على قدراته اللغوية عند التدريب على مهام اللغة المرئية والروبوتات – من الناحية الكمية ، يحتفظ نموذج 562B PaLM-E تقريبًا بجميع قدراته اللغوية.”

والباحثون مطالبة أن PaLM-E يعرض قدرات ناشئة مثل التفكير متعدد الوسائط (مما يسمح للنموذج بتحليل سلسلة من المدخلات التي تشمل كل من اللغة والمعلومات المرئية) والاستدلال متعدد الصور (باستخدام صور متعددة كمدخلات لعمل استنتاج أو التنبؤ) على الرغم من تدريبه على مطالبات الصورة الواحدة فقط. بهذا المعنى ، يبدو أن PaLM-E يواصل اتجاه المفاجآت الناشئة حيث تصبح نماذج التعلم العميق أكثر تعقيدًا بمرور الوقت.

يخطط باحثو Google لاستكشاف المزيد من تطبيقات PaLM-E لسيناريوهات العالم الحقيقي مثل أتمتة المنزل أو الروبوتات الصناعية. وهم يأملون أن تلهم PaLM-E مزيدًا من الأبحاث حول التفكير متعدد الوسائط والذكاء الاصطناعي المتجسد.

“Multimodal” هي كلمة طنانة سنسمعها أكثر فأكثر مع وصول الشركات إلى الذكاء الاصطناعي العام الذي سيكون ظاهريًا قادرًا على أداء المهام العامة مثل الإنسان.



مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

keto gummies reviews alert keto gummies for weight loss peoples keto new keto acv gummies beware acv keto gummies acv gummies review acv gummies reviews weight loss with apple cider vinegar slimsculpt keto acv gummies review proton keto acv gummies reviews my honest opinion updated they won t tell you before getting it new keto acv gummies reviews alert 2024 does keto acv gummies work be careful slim labs acv keto gummies be careful does slim labs acv keto gummies work watch this review slim labs acv keto gummies be careful does slim labs acv keto gummies work watch this review kelly clarkson diet 2024 weight loss secrets keto gummies review x10 boost keto acv gummies scam reviews no celebrities ever endorsed keto weight loss gummies exploring kelly clarkson weight loss diet dr oz discusses ozempic or keto gummies weight loss exposing apple cider gummies kelly clarkson s truth the truth about acv keto gummies do they really help you lose weight kelly clarkson and ozempic dr oz perspective on losing weight keto acv gummies alert keto acv gummies reviews acv keto gummies do keto acv gummies