في مارس 2022 ، ظهر مقطع فيديو على الإنترنت يبدو أنه يظهر الرئيس الأوكراني ، فولوديمير زيلينسكي ، يطلب من قواته إلقاء أسلحتهم في مواجهة الغزو الروسي. الفيديو – الذي تم إنشاؤه بمساعدة الذكاء الاصطناعي (AI) – كان رديئًا من حيث الجودة وتم فضح الحيلة بسرعة ، ولكن نظرًا لأن المحتوى التركيبي أصبح أسهل في الإنتاج وأكثر إقناعًا ، فقد يكون لمجهود مماثل في يوم من الأيام عواقب جيوسياسية خطيرة.
هذا جزئيًا هو السبب الذي يجعل علماء الكمبيوتر يبتكرون طرقًا أفضل لإنشاء الفيديو والصوت والصور والنص خوارزميًا – عادةً لاستخدامات أكثر بناءة مثل تمكين الفنانين من إظهار رؤاهم – يقومون أيضًا بإنشاء خوارزميات مضادة لاكتشاف مثل هذا المحتوى التركيبي . . تُظهر الأبحاث الحديثة تقدمًا في جعل الاكتشاف أكثر قوة ، أحيانًا من خلال النظر إلى ما وراء التواقيع الدقيقة لأدوات جيل معينة وبدلاً من ذلك استخدام الإشارات الفيزيائية والبيولوجية الأساسية التي يصعب على الذكاء الاصطناعي تقليدها.
من الممكن أيضًا أن يصبح المحتوى الذي تم إنشاؤه بواسطة AI وأساليب الكشف مقفلة في ذهاب وإياب بشكل دائم حيث يصبح كلا الجانبين أكثر تعقيدًا. تقول لويزا فيردوليفا ، عالمة الكمبيوتر في جامعة نابولي فيديريكو الثاني ، عن أساليب التوليد الجديدة التي تستمر في الظهور: “المشكلة الرئيسية هي كيفية التعامل مع التكنولوجيا الجديدة”. “في هذا الصدد ، لا ينتهي أبدًا.”
في نوفمبر ، أعلنت إنتل عن برنامج Real-Time Deepfake Detector ، وهو عبارة عن منصة لتحليل مقاطع الفيديو. (مصطلح “deepfake” مشتق من استخدام التعلم العميق – وهو مجال من مجالات الذكاء الاصطناعي يستخدم شبكات عصبية اصطناعية متعددة الطبقات – لإنشاء محتوى مزيف.) ومن المرجح أن يشمل العملاء شركات وسائل التواصل الاجتماعي والمذيعين والمنظمات غير الحكومية التي يمكنها التوزيع كاشفات لعامة الناس ، كما يقول إلكه دمير ، الباحث في شركة إنتل. يمكن لأحد معالجات Intel تحليل 72 دفق فيديو في وقت واحد. في نهاية المطاف ، ستطبق المنصة العديد من أدوات الكشف ، ولكن عند إطلاقها هذا الربيع ، ستستخدم كاشفًا شارك دمير في إنشائه (مع Umur Çiftçi ، في جامعة Binghamton) يسمى FakeCatcher.
يدرس FakeCatcher التغيرات اللونية في الوجوه لاستنتاج تدفق الدم ، وهي عملية تسمى التصوير الضوئي (PPG). صمم الباحثون البرنامج للتركيز على أنماط معينة من الألوان في مناطق معينة من الوجه ولتجاهل أي شيء غريب. إذا كانوا قد سمحوا لها باستخدام جميع المعلومات الموجودة في مقطع فيديو ، فقد تكون قد أصبحت تعتمد أثناء التدريب على الإشارات التي يمكن لمولدات الفيديو الأخرى معالجتها بسهولة أكبر. إشارات PPG إنها خاصة بمعنى أنها موجودة في كل مكان على بشرتك ، “يقول دمير. إنها ليست مجرد عيون أو شفاه. وتغيير الإضاءة لا يلغيها ، ولكن أي عملية إنتاجية تقضي عليها في الواقع ، لأن نوع الضوضاء التي يقومون بها إعادة إضافة العبث إلى الارتباطات المكانية والطيفية والزمانية “. بعبارة أخرى ، يتأكد FakeCatcher من أن اللون يتقلب بشكل طبيعي بمرور الوقت حيث يضخ القلب الدم ، وأن هناك تماسكًا عبر مناطق الوجه.في اختبار واحد ، حقق الكاشف دقة بنسبة 91 بالمائة ، أي ما يقرب من تسع نقاط مئوية أفضل من النظام التالي الأفضل.
إنشاء وكشف الوسائط الاصطناعية هو سباق تسلح ، يبني فيه كل جانب على الآخر. بالنظر إلى طريقة اكتشاف جديدة ، يمكن لأي شخص في كثير من الأحيان تدريب خوارزمية جيل لتصبح أفضل في خداعها. تتمثل الميزة الرئيسية لـ FakeCatcher في أنها غير قابلة للتفاضل ، وهو مصطلح رياضي يعني أنه لا يمكن بسهولة إجراء هندسة عكسية لها من أجل مولدات التدريب.
ستستخدم منصة إنتل أيضًا في النهاية نظام Demir و Çiftçi الذي تم تطويره مؤخرًا والذي يعتمد على حركة الوجه. في حين أن الحركة الطبيعية تخضع لبنية الوجه ، تبدو الحركة الوهمية العميقة مختلفة. لذا بدلاً من تدريب شبكة عصبية على الفيديو الخام ، فإن طريقتهم الأولى تطبق خوارزمية تكبير الحركة على الفيديو ، مما يجعل الحركة أكثر بروزًا ، قبل تغذية الشبكة العصبية. في أحد الاختبارات ، اكتشف نظامهم بدقة 97 في المائة ليس فقط ما إذا كان مقطع الفيديو مزيفًا ، ولكن أيضًا أي من الخوارزميات العديدة التي أنشأته ، أفضل بأكثر من ثلاث نقاط مئوية من النظام التالي الأفضل.
شركة انتل
اتبع باحثون في جامعة كاليفورنيا في سانتا باربرا نهجًا مشابهًا في ورقة بحثية حديثة. يشير مايكل جوبيل ، طالب دكتوراه في الهندسة الكهربائية في جامعة كاليفورنيا في سان فرانسيسكو ومؤلف مشارك في الورقة ، إلى أن هناك مجموعة متنوعة من طرق الكشف. “من ناحية ، لديك طرق غير مقيدة للغاية هي مجرد تعلم عميق خالص” ، مما يعني أنها تستخدم جميع البيانات المتاحة. في الطرف الآخر ، لديك طرق تقوم بأشياء مثل تحليل النظرة. بلدنا في الوسط نوعًا ما “. يركز نظامهم ، المسمى PhaseForensics ، على الشفاه ويستخرج المعلومات حول الحركة على ترددات مختلفة قبل تقديم هذه البيانات المهضومة إلى شبكة عصبية. يقول جوبيل: “باستخدام ميزات الحركة نفسها ، فإننا نوعاً ما نكوِّن شفرة صلبة في بعض ما نريد أن تتعلمه الشبكة العصبية”.
ويشير إلى أن إحدى فوائد هذا الوسط هي القابلية للتعميم. إذا قمت بتدريب كاشف غير مقيد على مقاطع فيديو من بعض خوارزميات الجيل ، فسوف يتعلم اكتشاف توقيعاتها ولكن ليس بالضرورة تلك الخاصة بالخوارزميات الأخرى. قام فريق UCSB بتدريب Phase Forensics على مجموعة بيانات واحدة ، ثم اختبرها على ثلاث مجموعات أخرى. كانت دقتها 78 بالمائة و 91 بالمائة و 94 بالمائة ، أفضل بحوالي أربع نقاط مئوية من أفضل طريقة مقارنة في كل مجموعة بيانات.
أصبح التزييف العميق للصوت مشكلة أيضًا. في يناير ، قام شخص ما بتحميل مقطع مزيف للممثلة إيما واتسون تقرأ جزءًا من هتلر كفاحي. هنا ، أيضًا ، الباحثون موجودون في هذه القضية. في أحد المقاربات ، طور العلماء في جامعة فلوريدا نظامًا يصنع نموذجًا للقناة الصوتية البشرية. تم تدريبه على تسجيلات صوتية حقيقية ومزيفة ، حيث أنشأ مجموعة من القيم الواقعية لمناطق المقطع العرضي على مسافات مختلفة على طول مجرى الهواء الذي ينتج الصوت. بالنظر إلى عينة جديدة مشبوهة ، يمكنها تحديد ما إذا كانت مقبولة من الناحية البيولوجية. تشير الورقة إلى دقة مجموعة بيانات واحدة تبلغ حوالي 99 بالمائة.
لا تحتاج الخوارزمية الخاصة بهم إلى رؤية صوت مزيف عميق من خوارزمية جيل معينة للدفاع ضدها. طور Verdoliva ، من نابولي ، طريقة أخرى من هذا القبيل. أثناء التدريب ، تتعلم الخوارزمية العثور على التوقيعات الحيوية للمتحدثين. عند تنفيذه ، فإنه يأخذ تسجيلات حقيقية لمتحدث معين ، ويستخدم تقنياته المكتسبة للعثور على التوقيع الحيوي ، ثم يبحث عن هذا التوقيع في تسجيل مشكوك فيه. في مجموعة اختبار واحدة ، حققت درجة “AUC” (التي تأخذ في الاعتبار الإيجابيات الخاطئة والسلبيات الكاذبة) من 0.92 من 1.0. وسجل أفضل منافس 0.72.
عملت مجموعة Verdoliva أيضًا على تحديد الصور التي تم إنشاؤها ومعالجتها ، سواء تم تغييرها بواسطة AI أو عن طريق القص واللصق القديم في Photoshop. قاموا بتدريب نظام يسمى TruFor على صور من 1475 كاميرا ، وتعلموا التعرف على أنواع التوقيعات التي تتركها هذه الكاميرات. بالنظر إلى صورة جديدة ، يمكنه اكتشاف عدم التطابق بين التصحيحات المختلفة (حتى من الكاميرات الجديدة) ، أو معرفة ما إذا كانت الصورة بأكملها لا تبدو بشكل معقول أنها جاءت من الكاميرا. في أحد الاختبارات ، سجل TruFor درجة AUC قدرها 0.86 ، بينما سجل أفضل منافس 0.80. علاوة على ذلك ، يمكن أن يسلط الضوء على أجزاء الصورة التي تساهم أكثر في حكمها ، مما يساعد البشر على التحقق من عملها مرة أخرى.
يشارك طلاب المدارس الثانوية الآن بانتظام في لعبة استخدام الذكاء الاصطناعي لإنشاء المحتوى ، مما يدفع نظام إنشاء النصوص ChatGPT لكتابة المقالات. يتمثل أحد الحلول في مطالبة مبتكري مثل هذه الأنظمة ، التي تسمى نماذج اللغات الكبيرة ، بوضع علامة مائية على النص الذي تم إنشاؤه. اقترح باحثون في جامعة ماريلاند مؤخرًا طريقة تنشئ عشوائيًا مجموعة من الكلمات المدرجة في القائمة الخضراء ، ثم تعطي تفضيلًا طفيفًا لتلك الكلمات عند الكتابة. إذا كنت تعرف هذه القائمة (السرية) من الكلمات المدرجة في القائمة الخضراء ، فيمكنك البحث عن غلبة لها في جزء من النص لمعرفة ما إذا كانت من المحتمل أن تكون من الخوارزمية. تتمثل إحدى المشكلات في أن هناك عددًا متزايدًا من نماذج اللغة القوية ، ولا يمكننا أن نتوقع منهم جميعًا وضع علامة مائية على مخرجاتهم.
أنشأ أحد طلاب جامعة برينستون ، إدوارد تيان ، أداة تسمى GPTZero تبحث عن علامات تدل على كتابة نص بواسطة ChatGPT حتى بدون علامة مائية. يميل البشر إلى اختيار كلمات أكثر إثارة للدهشة وتقلبات أكثر في طول الجملة. لكن يبدو أن GPTZero لها حدود. وجد أحد المستخدمين الذين وضعوا GPTZero في اختبار صغير أنه وضع علامة بشكل صحيح على 10 من أصل 10 نصوص مؤلفة بواسطة الذكاء الاصطناعي على أنها نصوص اصطناعية ، لكنه أيضًا وضع علامة زورًا على 8 من أصل 10 نصوص كتبها الإنسان.
من المحتمل أن يتأخر اكتشاف النص الاصطناعي كثيرًا عن الاكتشاف في الوسائط الأخرى. وفقًا لتوم غولدشتاين ، أستاذ علوم الكمبيوتر في جامعة ميريلاند الذي شارك في تأليف ورقة العلامة المائية ، هذا بسبب وجود مثل هذا التنوع في طريقة استخدام الناس للغة ، ولأنه لا يوجد الكثير من الإشارات. قد تحتوي المقالة على بضع مئات من الكلمات ، مقابل مليون بكسل في الصورة ، والكلمات منفصلة ، على عكس الاختلاف الدقيق في لون البكسل.
هناك الكثير على المحك في اكتشاف المحتوى التركيبي. يمكن استخدامه للتأثير على المعلمين أو المحاكم أو الناخبين. يمكن أن ينتج عنه محتوى للبالغين مهين أو مخيف. يمكن أن تؤدي مجرد فكرة التزييف العميق إلى تآكل الثقة في الواقع الوسيط. يسمي دمير هذا المستقبل بـ “البائس”. على المدى القصير ، كما تقول ، نحتاج إلى خوارزميات الكشف. على المدى الطويل ، نحتاج أيضًا إلى بروتوكولات تحدد المصدر ، وربما تتضمن علامات مائية أو بلوكشين.
يقول فيردوليفا عن طرق الكشف: “يرغب الناس في امتلاك أداة سحرية قادرة على القيام بكل شيء بشكل مثالي وحتى شرحه”. لا يوجد شيء من هذا القبيل ، ومن المحتمل أن يحدث على الإطلاق. “أنت بحاجة إلى أدوات متعددة.” حتى إذا تمكنت جعبة من أجهزة الكشف من إزالة التزييف العميق ، فسيتمتع المحتوى على الأقل بحياة قصيرة عبر الإنترنت قبل أن يختفي. سيكون لها تأثير. لذا ، يقول فيردوليفا ، لا تستطيع التكنولوجيا وحدها إنقاذنا. بدلاً من ذلك ، يحتاج الناس إلى تثقيفهم حول الواقع الجديد غير المليء بالواقع.
من مقالات موقعك
مقالات ذات صلة حول الويب
اكتشاف المزيد من عرب نيوز للتقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.