تقدم Microsoft نموذجًا للذكاء الاصطناعي يمكنه فهم محتوى الصورة واجتياز اختبارات الذكاء

تكبير / صورة تم إنشاؤها بواسطة الذكاء الاصطناعي للدماغ الإلكتروني باستخدام مقلة العين.

آرس تكنيكا

قدم باحثون من Microsoft يوم الإثنين ، نموذج Kosmos-1 متعدد الوسائط يمكنه تحليل الصور للمحتوى وحل الألغاز المرئية وإجراء التعرف على النص المرئي واجتياز اختبارات الذكاء المرئي وفهم تعليمات اللغة الطبيعية. يعتقد الباحثون أن الذكاء الاصطناعي متعدد الوسائط – الذي يدمج أنماطًا مختلفة من الإدخال مثل النص والصوت والصور والفيديو – هو خطوة أساسية لبناء الذكاء الاصطناعي العام (AGI) الذي يمكنه أداء المهام العامة على مستوى الإنسان.

“كونه جزءًا أساسيًا من الذكاء ، متعدد الوسائط الإدراك ضرورة لتحقيق مصطنع المخابرات العامةمن حيث اكتساب المعرفة وعلى أرض الواقع ، “كتب الباحثون في ورقتهم الأكاديمية ،” اللغة ليست كل ما تحتاجه: مواءمة الإدراك مع نماذج اللغة. “

تُظهر الأمثلة المرئية من ورقة Kosmos-1 النموذج الذي يقوم بتحليل الصور والإجابة على الأسئلة المتعلقة بها ، وقراءة نص من صورة ، وكتابة تعليقات للصور ، وإجراء اختبار الذكاء المرئي بدقة تتراوح بين 22 و 26 بالمائة (المزيد حول ذلك أدناه).

مثال قدمته Microsoft عن Kosmos-1 يجيب على أسئلة حول الصور ومواقع الويب.

مايكروسوفت
مثال قدمته Microsoft عن “تحفيز سلسلة التفكير متعدد الوسائط” لـ Kosmos-1.

مايكروسوفت
مثال على قيام Kosmos-1 بالإجابة على الأسئلة المرئية ، مقدمة من Microsoft.

مايكروسوفت

بينما تشتهر وسائل الإعلام بأخبار النماذج اللغوية الكبيرة (LLM) ، يشير بعض خبراء الذكاء الاصطناعي إلى الذكاء الاصطناعي متعدد الوسائط باعتباره مسارًا أوضح نحو الذكاء الاصطناعي العام ، وهي تقنية ستتمكن افتراضيًا من استبدال البشر في أي مهمة فكرية (وأي وظيفة فكرية). AGI هو الهدف المعلن لشركة OpenAI ، الشريك التجاري الرئيسي لمايكروسوفت في مجال الذكاء الاصطناعي.

في هذه الحالة ، يبدو أن Kosmos-1 هو مشروع Microsoft خالص دون مشاركة OpenAI. يطلق الباحثون على إنشائهم اسم “نموذج اللغة الكبيرة متعدد الوسائط” (MLLM) لأن جذوره تكمن في معالجة اللغة الطبيعية مثل لغة LLM للنص فقط ، مثل ChatGPT. ويوضح: لكي يقبل Kosmos-1 إدخال الصورة ، يجب على الباحثين أولاً ترجمة الصورة إلى سلسلة خاصة من الرموز المميزة (النص الأساسي) التي يمكن لـ LLM فهمها. تصف ورقة Kosmos-1 هذا بمزيد من التفصيل:

بالنسبة لتنسيق الإدخال ، نقوم بتسوية الإدخال كتسلسل مزين برموز خاصة. على وجه التحديد ، نحن نستخدم و للدلالة على بداية ونهاية التسلسل. الرموز المميزة و تشير إلى بداية ونهاية حفلات الزفاف المشفرة. على سبيل المثال، “ وثيقة “هو إدخال نص و” فقرة تضمين الصورة فقرة “هو إدخال نص صورة معشق.

… يتم استخدام وحدة التضمين لتشفير كل من الرموز المميزة للنص وطرائق الإدخال الأخرى في متجهات. ثم يتم تغذية حفلات الزفاف في وحدة فك التشفير. بالنسبة إلى رموز الإدخال ، نستخدم جدول بحث لتعيينها في حفلات الزفاف. بالنسبة لطرائق الإشارات المستمرة (مثل الصورة والصوت) ، من الممكن أيضًا تمثيل المدخلات كرمز منفصل ثم اعتبارها “لغات أجنبية”.

قامت Microsoft بتدريب Kosmos-1 باستخدام بيانات من الويب ، بما في ذلك مقتطفات من The Pile (مورد نصي باللغة الإنجليزية سعة 800 جيجابايت) و Common Crawl. بعد التدريب ، قاموا بتقييم قدرات Kosmos-1 في العديد من الاختبارات ، بما في ذلك فهم اللغة ، وتوليد اللغة ، وتصنيف النص الخالي من التعرف الضوئي على الحروف ، والتعليق على الصور ، والإجابة على الأسئلة المرئية ، والإجابة على أسئلة صفحة الويب ، وتصنيف الصور بدون لقطات. في العديد من هذه الاختبارات ، تفوق أداء كوزموس 1 على أحدث النماذج الحالية ، وفقًا لمايكروسوفت.

تكبير / مثال على اختبار Raven IQ الذي كلف Kosmos-1 بحله.

مايكروسوفت

من الأمور ذات الأهمية الخاصة أداء Kosmos-1 في Raven’s Progressive Reasoning ، والذي يقيس معدل الذكاء البصري من خلال تقديم سلسلة من الأشكال ويطلب من المتقدم في الاختبار إكمال التسلسل. لاختبار Kosmos-1 ، قام الباحثون بتغذية اختبار كامل ، واحدًا تلو الآخر ، مع اكتمال كل خيار وسألوا عما إذا كانت الإجابة صحيحة. يمكن لـ Kosmos-1 الإجابة بشكل صحيح على سؤال في اختبار Raven بنسبة 22 بالمائة من الوقت (26 بالمائة مع ضبط دقيق). هذا ليس بأي حال من الأحوال ضربة قاضية ، والأخطاء في المنهجية يمكن أن تؤثر على النتائج ، لكن Kosmos-1 تغلبت على فرصة عشوائية (17 بالمائة) في اختبار Raven IQ.

ومع ذلك ، بينما يمثل Kosmos-1 خطوات مبكرة في المجال متعدد الوسائط (وهو نهج يتبعه الآخرون أيضًا) ، فمن السهل أن نتخيل أن التحسينات المستقبلية يمكن أن تحقق نتائج أكثر أهمية ، مما يسمح لنماذج الذكاء الاصطناعي بإدراك أي شكل من أشكال الوسائط والتصرف بناءً عليها . ، مما سيعزز بشكل كبير من قدرات المساعدين الصناعيين. في المستقبل ، يقول الباحثون إنهم يرغبون في توسيع نطاق Kosmos-1 في حجم النموذج وقدرة تكامل الكلام أيضًا.

تقول Microsoft إنها تخطط لإتاحة Kosmos-1 للمطورين ، على الرغم من أن صفحة GitHub التي استشهدت بها الورقة لا تحتوي على كود واضح خاص بـ Kosmos عند نشر هذه القصة.

مرتبط

اكتشاف المزيد من عرب نيوز للتقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

0 3 دقائق

أقرأ التالي

تقدم Microsoft نموذجًا للذكاء الاصطناعي يمكنه فهم محتوى الصورة واجتياز اختبارات الذكاء

مرتبط

اكتشاف المزيد من عرب نيوز للتقنية

أقرأ التالي

شركة ترميم فلل بالرياض عوازل الصفرات

يعمل خريجو SpaceX على جمع أول صندوق ضخم للتكنولوجيا العميقة بقيمة 550 مليون دولار

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

شركة ترميم فلل بالرياض عوازل الصفرات

يعمل خريجو SpaceX على جمع أول صندوق ضخم للتكنولوجيا العميقة بقيمة 550 مليون دولار

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

اترك تعليقاً إلغاء الرد

,افضل ميكب ارتست لوضع ميك اب خفيف. هل تعرفينها؟

أبسط طريقة لحرق ويندوز10 على فلاشة الـusb

توفير المال على إصلاحات الجهاز مع التحقق من الضمان

TikTok: منصة صينية تتحدى X و Thread بمشاركات نصية فقط

روابط ميجا mega ,روابط ميقا مجانية ,معنى روابط ميقا mega.nz

روابط نصية AA50

مرتبط

اكتشاف المزيد من عرب نيوز للتقنية

أقرأ التالي

شركة ترميم فلل بالرياض عوازل الصفرات

يعمل خريجو SpaceX على جمع أول صندوق ضخم للتكنولوجيا العميقة بقيمة 550 مليون دولار

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

ظهرت واجهات برمجة تطبيقات ChatGPT و Whisper لأول مرة ، مما يسمح للمطورين بدمجها في التطبيقات

يعد الشكل أول إنسان آلي ذو غرض عام

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

اكتشاف المزيد من عرب نيوز للتقنية