بدون خبرة مدى الحياة للبناء عليها مثل البشر (وأخذها كأمر مسلم به تمامًا) ، غالبًا ما يتعين على الروبوتات التي ترغب في تعلم مهارة جديدة أن تبدأ من نقطة الصفر. التعلم المعزز هو أسلوب يتيح للروبوتات تعلم مهارات جديدة من خلال التجربة والخطأ ، ولكن بشكل خاص في حالة تعلم سياسات التحكم القائمة على الرؤية من طرف إلى طرف ، يستغرق الأمر الكثير من الوقت لأن العالم الحقيقي هو احتكاك مضاء بغرابة- لقد ملأت فوضى العوائق التي لا تستطيع الروبوتات فهمها بدون جهد غير عملي في كثير من الأحيان.
قام علماء الروبوتات في جامعة كاليفورنيا في بيركلي بتسريع هذه العملية إلى حد كبير عن طريق القيام بنفس النوع من الغش الذي يقوم به البشر – بدلاً من البدء من نقطة الصفر ، تبدأ ببعض الخبرة السابقة التي تساعدك على المضي قدمًا. من خلال الاستفادة من “نموذج الأساس” الذي تم تدريبه مسبقًا على الروبوتات التي تقود نفسها ، تمكن الباحثون من الحصول على سيارة رالي آلية صغيرة الحجم لتعليم نفسها السباق حول المسارات الداخلية والخارجية ، ومطابقة الأداء البشري بعد 20 دقيقة فقط من يمارس.
https://www.youtube.com/watch؟v=eZATlf0ybXk
تحدث مرحلة ما قبل التدريب الأولى في وقت فراغك ، عن طريق قيادة روبوت يدويًا (وهذا ليس بالضرورة الروبوت الذي سيقوم بالمهمة التي تهتم بها) حول بيئات مختلفة. الهدف من القيام بذلك ليس تعليم الروبوت القيادة بسرعة حول الدورة التدريبية ، ولكن بدلاً من ذلك تعليمه أساسيات عدم الوقوع في الأشياء.
مع وجود “نموذج الأساس” المدرب مسبقًا في مكانه ، عندما تنتقل بعد ذلك إلى سيارة الرالي الروبوتية الصغيرة ، لم يعد من الضروري البدء من الصفر. بدلاً من ذلك ، يمكنك تحريكها إلى الدورة التدريبية التي تريدها أن تتعلمها ، وقيادتها مرة واحدة ببطء لتظهر لها حيث تريدها ، ثم تركها تسير بشكل مستقل تمامًا ، وتدريب نفسها على القيادة بشكل أسرع وأسرع. باستخدام كاميرا أمامية منخفضة الدقة وبعض التقديرات الأساسية للحالة ، يحاول الروبوت الوصول إلى نقطة التفتيش التالية في المسار بأسرع ما يمكن ، مما يؤدي إلى بعض السلوكيات الناشئة المثيرة للاهتمام:
يتعلم النظام مفهوم “خط السباق” ، حيث يجد مسارًا سلسًا عبر اللفة ويزيد من سرعته من خلال الزوايا الضيقة والخطوات. يتعلم الروبوت أن يحمل سرعته إلى القمة ، ثم يضغط على المكابح بحدة للالتفاف والتسارع خارج المنعطف لتقليل مدة القيادة. مع سطح منخفض الاحتكاك ، تتعلم السياسة الإفراط في التوجيه قليلاً عند الدوران ، والانجراف إلى الزاوية لتحقيق دوران سريع دون استخدام الكبح أثناء الانعطاف. في البيئات الخارجية ، يمكن للسياسة المكتسبة أيضًا تمييز خصائص الأرض ، مفضلة المناطق الملساء ذات الجر العالي على المسارات الخرسانية وحولها على المناطق ذات العشب الطويل الذي يعيق حركة الروبوت.
الشيء الذكي الآخر هنا هو ميزة إعادة التعيين ، وهو أمر ضروري في تدريب العالم الحقيقي. عند التدريب على المحاكاة ، من السهل جدًا إعادة تعيين الروبوت الذي فشل ، ولكن خارج المحاكاة ، يمكن للفشل (بحكم التعريف) إنهاء التدريب إذا علق الروبوت نفسه بطريقة ما. هذه ليست مشكلة كبيرة إذا كنت تريد قضاء كل وقتك في التفكير في الروبوت أثناء التعلم ، ولكن إذا كان لديك شيء أفضل للقيام به ، يجب أن يكون الروبوت قادرًا على التدريب بشكل مستقل من البداية إلى النهاية. في هذه الحالة ، إذا لم يتحرك الروبوت لمسافة 0.5 متر على الأقل في الثواني الثلاث السابقة ، فإنه يعلم أنه عالق ، وسينفذ سلوكًا بسيطًا يتمثل في الدوران العشوائي ، والنسخ الاحتياطي ، ثم محاولة القيادة للأمام مرة أخرى ، الأمر الذي يحصل انها غير عالقة في نهاية المطاف.
خلال التجارب الداخلية والخارجية ، كان الروبوت قادرًا على تعلم القيادة العدوانية مقارنة بخبير بشري بعد 20 دقيقة فقط من الممارسة المستقلة ، والتي يقول الباحثون إنها “توفر تحققًا قويًا من أن التعلم المعزز العميق يمكن أن يكون بالفعل أداة قابلة للتطبيق للتعلم في العالم الحقيقي . ” السياسات حتى من الصور الأولية ، عند دمجها مع التدريب المسبق المناسب وتنفيذها في سياق إطار تدريب مستقل “. سيستغرق الأمر الكثير من العمل لتنفيذ هذا النوع من الأشياء بأمان على منصة أكبر ، لكن هذه السيارة الصغيرة تأخذ اللفات القليلة الأولى في الاتجاه الصحيح بأسرع ما يمكن.
FastRLAP: نظام لتعلم القيادة عالية السرعة من خلال RL العميق والممارسة المستقلةبواسطة Kyle Stachowicz و Arjun Bhorkar و Dhruv Shah و Ilya Kostrikov و Sergey Levine من جامعة كاليفورنيا في بيركلي ، متاح على arXiv.
من مقالات موقعك
مقالات ذات صلة حول الويب
اكتشاف المزيد من عرب نيوز للتقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.