بعد وقت قصير من إطلاقها للجمهور ، أصبحت نماذج الذكاء الاصطناعي من نص إلى صورة مثل Stable Diffusion و Midjourney أيضًا نقاط محورية في المناقشات حول أخلاقيات استخدامها. Anton Troynikov هو أحد مؤسسي Chroma ، وهي شركة ناشئة تعمل على تحسين قابلية تفسير الذكاء الاصطناعي – أي جعل ما يجري تحت غطاء أنظمة الذكاء الاصطناعي أقل غموضًا. مع مولدات الفن بالذكاء الاصطناعي ، رأى Troynikov وآخرون في Chroma فرصة لبناء أداة من شأنها أن تسهل معالجة بعض مشكلات الإسناد الشائكة التي ظهرت. أجاب Troynikov على خمسة أسئلة سريعة حول المشروع – المسمى بالإسناد المستقر – وكيف يعتقد أن الفنانين ومهندسي الذكاء الاصطناعي يمكنهم التوقف عن التحدث مع بعضهم البعض حول موضوع الفن الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
ما هي انطباعاتك الأولى عن المولدات الفنية للذكاء الاصطناعي عندما تم إصدارها؟
Anton Troynikov: بدأت في الاهتمام بالخطاب الفني للذكاء الاصطناعي بعد إصدار Stable Diffusion وحصل الكثير من الناس على إمكانية الوصول إلى النموذج. وبدأت أدرك بسرعة كبيرة أن الناس على جانبي المحادثة كانوا يتحدثون مع بعضهم البعض. كنت أرغب في معرفة ما إذا كان هناك حل تقني لمشكلة التأكد من أن التقنيين والمبدعين ليسوا أعداء لبعضهم البعض.
ما هو هدفك مع الإحالة المستقرة؟
تروينيكوف: أردت أن أثبت أن هذه المشكلة ليست غير مجدية من الناحية الفنية للمعالجة. بعد التحدث إلى مجموعة من الأشخاص ، خاصةً على الجانب الإبداعي ، ولكن أيضًا على الجانب التكنولوجي والبحث ، شعرنا أنه من الصواب المضي قدمًا ومعرفة نوع رد الفعل الذي سنحصل عليه عندما أطلقناه.
ما هو الإصدار المختصر لكيفية عمل الإحالة المستقرة؟
Troynikov: الانتشار المستقر في فئة من النماذج تسمى نماذج الانتشار الكامن. تقوم نماذج الانتشار الكامن بتشفير الصور والتعليقات النصية الخاصة بها في متجهات (تمثيل رقمي فريد لكل صورة). أثناء وقت التدريب ، يضيف النموذج قيمًا عشوائية (ضوضاء) إلى المتجهات. ثم تقوم بتدريب نموذج للانتقال من متجه أكثر صخبًا إلى متجه أقل ضوضاءً. بمعنى آخر ، يحاول النموذج إعادة إنتاج التمثيل الرقمي الأصلي لكل صورة في مجموعة التدريب الخاصة به ، بناءً على التعليق النصي المصاحب لتلك الصورة.
كان التفكير ، لأن هذه التمثيلات العددية تأتي من هذه النماذج المدروسة مسبقًا التي تحول الصور إلى متجهات والعكس ، الفكرة هي في الأساس ، “حسنًا ، إنها تحاول إعادة إنتاج الصور بشكل مشابه قدر الإمكان.” لذا فإن الصورة التي تم إنشاؤها تريد أن تكون مشابهة للصور الأكثر تأثيرًا عليها ، من خلال وجود تمثيل رقمي مماثل. هذا هو التفسير القصير جدا.
كيف تتخذ هذه الخطوة النهائية وتحدد من هم الفنانون والمبدعون؟
ترونيكوف: نود حقًا أن نتمكّن من الإسناد مباشرة إلى الإنسان الذي أنشأ صور المصدر. ما لدينا – وما هو متاح في مجموعة بيانات التدريب العامة للانتشار المستقر – هو عناوين URL للصور ، وغالبًا ما تأتي عناوين URL هذه من CDN [content delivery network]. أصحاب المواقع التي تظهر فيها تلك الصور وأصحاب ومشغلي شبكات CDN تلك استطاع جعل هذا الاتصال.
لدينا نموذج تقديم صغير على الموقع. إذا تعرف الناس على من هو المنشئ ، فيمكنهم إرساله إلينا ، وسنحاول ربطه مرة أخرى.
كيف ترى أن الذكاء الاصطناعي التوليدي مثل هذا – جنبًا إلى جنب مع القدرة على عزو صور المصدر إلى منشئيها – يؤثر على الإبداع الفني؟
تروينيكوف: أعتقد أن هناك شيئين يمكنك القيام بهما. الأول ، من خلال القدرة على القيام بالإسناد ، يمكنك بعد ذلك تعويض المساهمين بشكل متناسب في مجموعة التدريب الخاصة بك بناءً على مساهمتهم في أي جيل معين. الشيء الآخر المثير للاهتمام حقًا هو ، إذا كان لديك إسناد في النماذج التوليدية ، فإنه يحولها من مجرد مولد إلى محرك بحث. يمكنك أن تجد بشكل متكرر تلك الجمالية التي تحبها ثم تربطها مرة أخرى بالأشياء التي تساهم في توليد تلك الصورة.
أنتون تروينيكوف هو أحد مؤسسي شركة Chroma ، وهي شركة تعمل بالذكاء الاصطناعي تركز على فهم سلوك الذكاء الاصطناعي من خلال البيانات. عمل Troynikov سابقًا في مجال الروبوتات مع التركيز على رؤية الكمبيوتر ثلاثية الأبعاد. إنه لا يعتقد أن الذكاء الاصطناعي سيقتلنا جميعًا.