تختبر OpenAI نسختها متعددة الوسائط من GPT-4 مع دعم التعرف على الصور قبل الإصدار الواسع المخطط له. ومع ذلك ، يتم تقييد الوصول العام بسبب المخاوف بشأن قدرته على التعرف على أفراد معينين ، وفقًا لتقرير صحيفة نيويورك تايمز يوم الثلاثاء.
عندما أعلنت شركة OpenAI عن GPT-4 في وقت سابق من هذا العام ، سلطت الشركة الضوء على القدرات متعددة الوسائط لنموذج الذكاء الاصطناعي. وهذا يعني أن النموذج لا يمكنه فقط معالجة النصوص وإنشاءها ، ولكن أيضًا تحليل الصور وتفسيرها ، مما يفتح بُعدًا جديدًا للتفاعل مع نموذج الذكاء الاصطناعي.
بعد الإعلان ، اتخذت OpenAI قدراتها في معالجة الصور خطوة إلى الأمام بالتعاون مع شركة ناشئة تدعى Be My Eyes ، والتي تعمل على تطوير تطبيق لوصف الصور للمستخدمين المكفوفين ، ومساعدتهم على تفسير محيطهم والتفاعل مع العالم بشكل أكثر استقلالية.
يسلط تقرير نيويورك تايمز الضوء على تجارب جوناثان موسين ، المستخدم الأعمى لتطبيق Be My Eyes من نيوزيلندا. استمتعت Mosen باستخدام التطبيق لتحديد العناصر الموجودة في غرفة الفندق ، مثل موزعات الشامبو ، ولترجمة الصور بدقة على وسائل التواصل الاجتماعي. ومع ذلك ، أعرب Mosen عن خيبة أمله عندما توقف التطبيق مؤخرًا عن تقديم معلومات الوجه ، وعرض رسالة مفادها أنه تم حجب الوجوه لأسباب تتعلق بالخصوصية.
أكد Sandhini Agarwal ، الباحث في سياسة OpenAI ، لصحيفة Times أن قضايا الخصوصية هي السبب في قيام المنظمة بتقليص قدرات GPT-4 للتعرف على الوجه. نظام OpenAI قادر حاليًا على تحديد الشخصيات العامة ، مثل أولئك الذين لديهم صفحة Wikipedia ، لكن OpenAI تشعر بالقلق من أن الميزة قد تنتهك قوانين الخصوصية في مناطق مثل إلينوي وأوروبا ، حيث يتطلب استخدام المعلومات البيومترية موافقة صريحة من المواطنين.
علاوة على ذلك ، أعربت OpenAI عن قلقها من أن Be My Eyes قد يسيء تفسير أو يحرف جوانب وجوه الأفراد ، مثل الجنس أو الحالة العاطفية ، مما يؤدي إلى نتائج غير مناسبة أو ضارة. تهدف OpenAI إلى التعامل مع هذه المخاوف وغيرها من مخاوف السلامة قبل أن تصبح إمكانات تحليل الصور الخاصة بـ GPT-4 متاحة على نطاق واسع. قال أغاروال لصحيفة التايمز: “نريد بشدة أن تكون هذه المحادثة ثنائية الاتجاه مع الجمهور. إذا كان ما نسمعه مثل ، “نحن في الواقع لا نريد أيًا منه” ، فهذا شيء نتعامل معه كثيرًا. “
على الرغم من هذه الاحتياطات ، كانت هناك أيضًا حالات من التلاعب في GPT-4 أو القيام بتعريفات كاذبة ، مما يؤكد التحدي المتمثل في إنشاء أداة مفيدة لن تمنح المستخدمين المكفوفين معلومات غير دقيقة.
وفي الوقت نفسه ، تختبر Microsoft ، المستثمر الرئيسي في OpenAI ، طرحًا محدودًا لأداة التحليل المرئي في روبوت دردشة Bing المدعوم بالذكاء الاصطناعي ، والذي يعتمد على تقنية GPT-4. شوهدت دردشة Bing مؤخرًا على Twitter حل الكابتشا الاختبارات المصممة لفحص برامج الروبوت ، والتي قد تؤدي أيضًا إلى تأخير الإصدار الأوسع لميزات معالجة الصور في Bing.
كما أدخلت Google مؤخرًا ميزات تحليل الصور في برنامج Bard chatbot ، والذي يسمح للمستخدمين بتحميل الصور للتعرف عليها أو معالجتها بواسطة Bard. في اختباراتنا للميزة ، يمكن أن تحل اختبارات CAPTCHA المستندة إلى الكلمات ، على الرغم من أنها ليست مثالية في كل مرة. بالفعل ، تستخدم بعض الخدمات مثل Roblox اختبارات CAPTCHA صعبة للغاية ، ومن المرجح أن تستمر في التقدم لتحسينات مماثلة في رؤية الكمبيوتر.
قد يصل هذا النوع من الرؤية الحاسوبية المدعومة بالذكاء الاصطناعي إلى أجهزة الجميع عاجلاً أم آجلاً ، ولكن من الواضح أيضًا أن الشركات ستحتاج إلى حل المضاعفات قبل أن نتمكن من رؤية إصدارات واسعة النطاق بأقل تأثير أخلاقي.