قدم باحثون من Microsoft يوم الإثنين ، نموذج Kosmos-1 متعدد الوسائط يمكنه تحليل الصور للمحتوى وحل الألغاز المرئية وإجراء التعرف على النص المرئي واجتياز اختبارات الذكاء المرئي وفهم تعليمات اللغة الطبيعية. يعتقد الباحثون أن الذكاء الاصطناعي متعدد الوسائط – الذي يدمج أنماطًا مختلفة من الإدخال مثل النص والصوت والصور والفيديو – هو خطوة أساسية لبناء الذكاء الاصطناعي العام (AGI) الذي يمكنه أداء المهام العامة على مستوى الإنسان.
“كونه جزءًا أساسيًا من الذكاء ، متعدد الوسائط الإدراك ضرورة لتحقيق مصطنع المخابرات العامةمن حيث اكتساب المعرفة وعلى أرض الواقع ، “كتب الباحثون في ورقتهم الأكاديمية ،” اللغة ليست كل ما تحتاجه: مواءمة الإدراك مع نماذج اللغة. “
تُظهر الأمثلة المرئية من ورقة Kosmos-1 النموذج الذي يقوم بتحليل الصور والإجابة على الأسئلة المتعلقة بها ، وقراءة نص من صورة ، وكتابة تعليقات للصور ، وإجراء اختبار الذكاء المرئي بدقة تتراوح بين 22 و 26 بالمائة (المزيد حول ذلك أدناه).
بينما تشتهر وسائل الإعلام بأخبار النماذج اللغوية الكبيرة (LLM) ، يشير بعض خبراء الذكاء الاصطناعي إلى الذكاء الاصطناعي متعدد الوسائط باعتباره مسارًا أوضح نحو الذكاء الاصطناعي العام ، وهي تقنية ستتمكن افتراضيًا من استبدال البشر في أي مهمة فكرية (وأي وظيفة فكرية). AGI هو الهدف المعلن لشركة OpenAI ، الشريك التجاري الرئيسي لمايكروسوفت في مجال الذكاء الاصطناعي.
في هذه الحالة ، يبدو أن Kosmos-1 هو مشروع Microsoft خالص دون مشاركة OpenAI. يطلق الباحثون على إنشائهم اسم “نموذج اللغة الكبيرة متعدد الوسائط” (MLLM) لأن جذوره تكمن في معالجة اللغة الطبيعية مثل لغة LLM للنص فقط ، مثل ChatGPT. ويوضح: لكي يقبل Kosmos-1 إدخال الصورة ، يجب على الباحثين أولاً ترجمة الصورة إلى سلسلة خاصة من الرموز المميزة (النص الأساسي) التي يمكن لـ LLM فهمها. تصف ورقة Kosmos-1 هذا بمزيد من التفصيل:
بالنسبة لتنسيق الإدخال ، نقوم بتسوية الإدخال كتسلسل مزين برموز خاصة. على وجه التحديد ، نحن نستخدم
و للدلالة على بداية ونهاية التسلسل. الرموز المميزةو تشير إلى بداية ونهاية حفلات الزفاف المشفرة. على سبيل المثال، “وثيقة “هو إدخال نص و”فقرة“هو إدخال نص صورة معشق.تضمين الصورة فقرة… يتم استخدام وحدة التضمين لتشفير كل من الرموز المميزة للنص وطرائق الإدخال الأخرى في متجهات. ثم يتم تغذية حفلات الزفاف في وحدة فك التشفير. بالنسبة إلى رموز الإدخال ، نستخدم جدول بحث لتعيينها في حفلات الزفاف. بالنسبة لطرائق الإشارات المستمرة (مثل الصورة والصوت) ، من الممكن أيضًا تمثيل المدخلات كرمز منفصل ثم اعتبارها “لغات أجنبية”.
قامت Microsoft بتدريب Kosmos-1 باستخدام بيانات من الويب ، بما في ذلك مقتطفات من The Pile (مورد نصي باللغة الإنجليزية سعة 800 جيجابايت) و Common Crawl. بعد التدريب ، قاموا بتقييم قدرات Kosmos-1 في العديد من الاختبارات ، بما في ذلك فهم اللغة ، وتوليد اللغة ، وتصنيف النص الخالي من التعرف الضوئي على الحروف ، والتعليق على الصور ، والإجابة على الأسئلة المرئية ، والإجابة على أسئلة صفحة الويب ، وتصنيف الصور بدون لقطات. في العديد من هذه الاختبارات ، تفوق أداء كوزموس 1 على أحدث النماذج الحالية ، وفقًا لمايكروسوفت.
من الأمور ذات الأهمية الخاصة أداء Kosmos-1 في Raven’s Progressive Reasoning ، والذي يقيس معدل الذكاء البصري من خلال تقديم سلسلة من الأشكال ويطلب من المتقدم في الاختبار إكمال التسلسل. لاختبار Kosmos-1 ، قام الباحثون بتغذية اختبار كامل ، واحدًا تلو الآخر ، مع اكتمال كل خيار وسألوا عما إذا كانت الإجابة صحيحة. يمكن لـ Kosmos-1 الإجابة بشكل صحيح على سؤال في اختبار Raven بنسبة 22 بالمائة من الوقت (26 بالمائة مع ضبط دقيق). هذا ليس بأي حال من الأحوال ضربة قاضية ، والأخطاء في المنهجية يمكن أن تؤثر على النتائج ، لكن Kosmos-1 تغلبت على فرصة عشوائية (17 بالمائة) في اختبار Raven IQ.
ومع ذلك ، بينما يمثل Kosmos-1 خطوات مبكرة في المجال متعدد الوسائط (وهو نهج يتبعه الآخرون أيضًا) ، فمن السهل أن نتخيل أن التحسينات المستقبلية يمكن أن تحقق نتائج أكثر أهمية ، مما يسمح لنماذج الذكاء الاصطناعي بإدراك أي شكل من أشكال الوسائط والتصرف بناءً عليها . ، مما سيعزز بشكل كبير من قدرات المساعدين الصناعيين. في المستقبل ، يقول الباحثون إنهم يرغبون في توسيع نطاق Kosmos-1 في حجم النموذج وقدرة تكامل الكلام أيضًا.
تقول Microsoft إنها تخطط لإتاحة Kosmos-1 للمطورين ، على الرغم من أن صفحة GitHub التي استشهدت بها الورقة لا تحتوي على كود واضح خاص بـ Kosmos عند نشر هذه القصة.