في المرة القادمة التي تواجه فيها ردًا مهذبًا بشكل غير معتاد على وسائل التواصل الاجتماعي، قد ترغب في التحقق مرتين. يمكن أن يكون نموذجًا للذكاء الاصطناعي يحاول (ويفشل) الاندماج مع الجمهور.
في يوم الأربعاء، أصدر باحثون من جامعة زيورخ، وجامعة أمستردام، وجامعة ديوك، وجامعة نيويورك دراسة كشفت أن نماذج الذكاء الاصطناعي لا تزال قابلة للتمييز بسهولة عن البشر في محادثات وسائل التواصل الاجتماعي، حيث تكون النغمة العاطفية الودية بشكل مفرط بمثابة الهبة الأكثر ثباتًا. وجد البحث، الذي اختبر تسعة نماذج مفتوحة الوزن عبر Twitter/X وBluesky وReddit، أن المصنفات التي طورها الباحثون اكتشفت الردود التي تم إنشاؤها بواسطة الذكاء الاصطناعي بدقة تتراوح بين 70 إلى 80 بالمائة.
تقدم الدراسة ما يسميه المؤلفون “اختبار تورينج الحسابي” لتقييم مدى قرب نماذج الذكاء الاصطناعي من اللغة البشرية. وبدلاً من الاعتماد على الحكم البشري الشخصي حول ما إذا كان النص يبدو أصليًا، يستخدم الإطار مصنفات آلية وتحليلًا لغويًا لتحديد ميزات محددة تميز المحتوى الذي تم إنشاؤه بواسطة الآلة عن المحتوى الذي كتبه الإنسان.
وكتب الباحثون: “حتى بعد المعايرة، تظل مخرجات LLM قابلة للتمييز بوضوح عن النص البشري، خاصة في النغمة العاطفية والتعبير العاطفي”. اختبر الفريق، بقيادة نيكولو باغان من جامعة زيورخ، استراتيجيات تحسين مختلفة، بدءًا من التحفيز البسيط وحتى الضبط الدقيق، لكنه وجد أن الإشارات العاطفية الأعمق لا تزال قائمة كدليل موثوق به على أن تفاعلًا نصيًا معينًا عبر الإنترنت تم تأليفه بواسطة روبوت محادثة يعمل بالذكاء الاصطناعي وليس بواسطة إنسان.
السمية تقول
في الدراسة، اختبر الباحثون تسعة نماذج لغوية كبيرة: Llama 3.1 8B، Llama 3.1 8B Instruct، Llama 3.1 70B، Mistral 7B v0.1، Mistral 7B Instruct v0.2، Qwen 2.5 7B Instruct، Gemma 3 4B Instruct، DeepSeek-R1-Distill-Llama-8B، و ابرتوس-8ب-2509.
عندما طُلب منها إنشاء ردود على منشورات وسائل التواصل الاجتماعي الحقيقية من مستخدمين فعليين، كافحت نماذج الذكاء الاصطناعي لمطابقة مستوى السلبية العرضية والتعبير العاطفي العفوي الشائع في منشورات وسائل التواصل الاجتماعي البشرية، مع درجات السمية أقل باستمرار من الردود البشرية الحقيقية عبر جميع المنصات الثلاث.
ولمواجهة هذا النقص، حاول الباحثون استراتيجيات التحسين (بما في ذلك تقديم أمثلة الكتابة واسترجاع السياق) التي قللت من الاختلافات الهيكلية مثل طول الجملة أو عدد الكلمات، ولكن استمرت الاختلافات في النغمة العاطفية. وخلص الباحثون إلى أن “اختبارات المعايرة الشاملة لدينا تتحدى الافتراض القائل بأن التحسين الأكثر تعقيدًا يؤدي بالضرورة إلى نتائج أكثر تشابهًا مع الإنسان”.
اكتشاف المزيد من عرب نيوز للتقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.




