يعد PaLM-E من Google عقلًا آليًا متخصصًا يأخذ الأوامر

تكبير / ذراع آلية يتحكم فيها PaLM-E تصل إلى كيس من الرقائق في فيديو توضيحي.

بحث جوجل

يوم الإثنين ، كشفت مجموعة من باحثي الذكاء الاصطناعي من Google والجامعة التقنية في برلين النقاب عن PaLM-E ، وهو نموذج متعدد الوسائط للغة المرئية (VLM) مع 562 مليار معلمة تدمج الرؤية واللغة للتحكم الآلي. يزعمون أنه أكبر VLM تم تطويره على الإطلاق ويمكنه أداء مجموعة متنوعة من المهام دون الحاجة إلى إعادة التدريب.

وفقًا لـ Google ، عند إعطائي أمرًا عالي المستوى ، مثل “أحضر لي رقائق الأرز من الدرج” ، يمكن لـ PaLM-E إنشاء خطة عمل لمنصة روبوت متنقلة بذراع (تم تطويرها بواسطة Google Robotics) وتنفيذها الإجراءات في حد ذاته.

يقوم PaLM-E بذلك عن طريق تحليل البيانات من كاميرا الروبوت دون الحاجة إلى تمثيل مشهد مُعالج مسبقًا. هذا يلغي الحاجة إلى قيام الإنسان بمعالجة البيانات مسبقًا أو التعليق عليها ويسمح بمزيد من التحكم الآلي المستقل.

في فيديو توضيحي مقدم من Google ، ينفذ PaLM-E “أحضر لي رقائق الأرز من الدرج” ، والذي يتضمن خطوات تخطيط متعددة بالإضافة إلى دمج التعليقات المرئية من كاميرا الروبوت.

كما أنه مرن ويمكن أن يتفاعل مع بيئته. على سبيل المثال ، يمكن لنموذج PaLM-E توجيه الروبوت للحصول على كيس رقائق من المطبخ – ومع دمج PaLM-E في حلقة التحكم ، يصبح مقاومًا للانقطاعات التي قد تحدث أثناء المهمة. في مثال فيديو ، يلتقط باحث الرقائق من الروبوت ويحركها ، لكن الروبوت يحدد مكان الرقائق ويمسكها مرة أخرى.

في مثال آخريتحكم نفس نموذج PaLM-E بشكل مستقل في الروبوت من خلال المهام ذات التسلسلات المعقدة التي كانت تتطلب في السابق توجيهًا بشريًا. تشرح الورقة البحثية من Google كيف تحول PaLM-E التعليمات إلى إجراءات:

نعرض أداء PaLM-E في مهام التلاعب المتنقلة المتنوعة والصعبة. نحن نتابع إلى حد كبير الإعداد في Ahn et al. (2022) ، حيث يحتاج الروبوت إلى تخطيط سلسلة من إجراءات الملاحة والمعالجة بناءً على تعليمات من قبل الإنسان. على سبيل المثال ، في ضوء التعليمات “لقد سكبت مشروبي ، هل يمكنك إحضار شيء لتنظيفه؟” ، يحتاج الروبوت إلى تخطيط تسلسل يحتوي على “1. ابحث عن إسفنجة ، 2. التقط الإسفنج ، 3. أحضرها للمستخدم ، 4. ضع الإسفنجة. ” مستوحاة من هذه المهام ، قمنا بتطوير 3 حالات استخدام لاختبار قدرات التفكير المجسدة لـ PaLM-E: توقع التكاليف ، واكتشاف الفشل ، والتخطيط طويل المدى. السياسات منخفضة المستوى مأخوذة من RT-1 (Brohan et al. ، 2022 ) ، نموذج محول يأخذ صورة RGB وتعليمات اللغة الطبيعية ، ويخرج أوامر تحكم المؤثر النهائي.

PaLM-E هو متنبئ بالرمز التالي ، ويسمى “PaLM-E” لأنه يعتمد على نموذج اللغة الكبيرة الحالي (LLM) من Google والمسمى “PaLM” (وهو مشابه للتقنية المستخدمة في ChatGPT). قامت Google بجعل PaLM “متجسدًا” من خلال إضافة المعلومات الحسية والتحكم الآلي.

نظرًا لأنه يعتمد على نموذج اللغة ، فإن PaLM-E يأخذ ملاحظات مستمرة ، مثل الصور أو بيانات المستشعر ، ويقوم بترميزها في سلسلة من المتجهات التي لها نفس حجم الرموز المميزة للغة. هذا يسمح للنموذج بـ “فهم” المعلومات الحسية بنفس الطريقة التي يعالج بها اللغة.

فيديو توضيحي مقدم من Google يعرض روبوتًا موجهًا بواسطة PaLM-E يتبع التعليمات ، “أحضر لي نجمة خضراء”. يقول الباحثون إن النجمة الخضراء “هي شيء لم يتعرض له هذا الروبوت بشكل مباشر”.

بالإضافة إلى محول الروبوتات RT-1 ، يستمد PaLM-E من عمل Google السابق على ViT-22B ، وهو نموذج محول الرؤية الذي تم الكشف عنه في فبراير. تم تدريب ViT-22B على العديد من المهام المرئية ، مثل تصنيف الصور ، واكتشاف الكائنات ، والتجزئة الدلالية ، وتعليق الصور.

ليست Google Robotics هي المجموعة البحثية الوحيدة التي تعمل على التحكم الآلي في الشبكات العصبية. يشبه هذا العمل بالتحديد ورقة “ChatGPT for Robotics” من Microsoft ، والتي جربت الجمع بين البيانات المرئية ونماذج اللغة الكبيرة للتحكم الآلي بطريقة مماثلة.

بغض النظر عن الروبوتات ، لاحظ باحثو Google العديد من التأثيرات المثيرة للاهتمام التي يبدو أنها تأتي من استخدام نموذج لغة كبير باعتباره جوهر PaLM-E. من ناحية ، فإنه يعرض “النقل الإيجابي” ، مما يعني أنه يمكنه نقل المعرفة والمهارات التي تعلموها من مهمة إلى أخرى ، مما يؤدي إلى “أداء أعلى بشكل ملحوظ” مقارنة بنماذج الروبوت ذات المهمة الواحدة.

هم أيضا يراقب اتجاه بمقياس نموذج: “كلما كان نموذج اللغة أكبر ، كلما حافظ على قدراته اللغوية عند التدريب على مهام اللغة المرئية والروبوتات – من الناحية الكمية ، يحتفظ نموذج 562B PaLM-E تقريبًا بجميع قدراته اللغوية.”

PaLM-E هو أكبر VLM تم الإبلاغ عنه حتى الآن. نلاحظ القدرات الناشئة مثل التسلسل متعدد الوسائط للتفكير المنطقي والاستدلال متعدد الصور ، على الرغم من تدريبنا على مطالبات من صورة واحدة فقط. على الرغم من أنه ليس محور عملنا ، فإن PaLM-E يضع معيار SOTA جديدًا على معيار OK-VQA. pic.twitter.com/9FHug25tOF
– داني دريس (DannyDriess) 7 مارس 2023

والباحثون مطالبة أن PaLM-E يعرض قدرات ناشئة مثل التفكير متعدد الوسائط (مما يسمح للنموذج بتحليل سلسلة من المدخلات التي تشمل كل من اللغة والمعلومات المرئية) والاستدلال متعدد الصور (باستخدام صور متعددة كمدخلات لعمل استنتاج أو التنبؤ) على الرغم من تدريبه على مطالبات الصورة الواحدة فقط. بهذا المعنى ، يبدو أن PaLM-E يواصل اتجاه المفاجآت الناشئة حيث تصبح نماذج التعلم العميق أكثر تعقيدًا بمرور الوقت.

يخطط باحثو Google لاستكشاف المزيد من تطبيقات PaLM-E لسيناريوهات العالم الحقيقي مثل أتمتة المنزل أو الروبوتات الصناعية. وهم يأملون أن تلهم PaLM-E مزيدًا من الأبحاث حول التفكير متعدد الوسائط والذكاء الاصطناعي المتجسد.

“Multimodal” هي كلمة طنانة سنسمعها أكثر فأكثر مع وصول الشركات إلى الذكاء الاصطناعي العام الذي سيكون ظاهريًا قادرًا على أداء المهام العامة مثل الإنسان.

مرتبط

الوسوم

0 4 دقائق

يعد PaLM-E من Google عقلًا آليًا متخصصًا يأخذ الأوامر

مرتبط

أقرأ التالي

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

اترك تعليقاً إلغاء الرد

أبسط طريقة لحرق ويندوز10 على فلاشة الـusb

,افضل ميكب ارتست لوضع ميك اب خفيف. هل تعرفينها؟

توفير المال على إصلاحات الجهاز مع التحقق من الضمان

روابط ميجا mega ,روابط ميقا مجانية ,معنى روابط ميقا mega.nz

هل قصدت Google إضافة ميزة Pixel 6 إلى الهواتف القديمة؟

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

مرتبط

أقرأ التالي

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

العد التنازلي للانتخابات السنوية لعام 2023 IEEE

عاد الكارهون ومنظرو المؤامرة على تويتر

مقالات ذات صلة

اترك تعليقاً إلغاء الرد