يوم الأربعاء ، أصدر باحثان ألمانيان ، صوفي جينتش وكريستيان كيرستينج ، ورقة بحثية تفحص قدرة ChatGPT-3.5 من OpenAI على فهم الدعابة وتوليدها. على وجه الخصوص ، اكتشفوا أن معرفة ChatGPT بالنكات محدودة إلى حد ما: أثناء تشغيل اختباري ، كان 90٪ من 1008 جيل نفس 25 نكتة ، مما دفعهم إلى استنتاج أنه من المحتمل أن تكون الردود قد تم تعلمها وحفظها أثناء تدريب نموذج الذكاء الاصطناعي بدلاً من ذلك. من كونها تم إنشاؤها حديثًا.
استكشف الباحثان ، المرتبطان بمعهد تكنولوجيا البرمجيات ، والمركز الألماني للفضاء (DLR) ، وجامعة دارمشتات التقنية ، الفروق الدقيقة في الفكاهة الموجودة في الإصدار 3.5 من ChatGPT (وليس الإصدار الأحدث GPT-4) من خلال سلسلة من التجارب التي تركز على توليد النكتة والشرح والكشف. لقد أجروا هذه التجارب عن طريق حث ChatGPT دون الوصول إلى الأعمال الداخلية للنموذج أو مجموعة البيانات.
كتبوا: “لاختبار مدى ثراء تنوع نكات ChatGPT ، طلبنا منه إلقاء نكتة ألف مرة”. كانت جميع الردود صحيحة نحويًا. احتوت جميع النواتج تقريبًا على نكتة واحدة بالضبط. فقط موجه ، “هل تعرف أي نكات جيدة؟” أثار العديد من النكات ، مما أدى إلى رد 1008 نكات إجمالاً. إلى جانب ذلك ، كان للتنوع في المطالبات أي تأثير ملحوظ “.
تتوافق نتائجهم مع خبرتنا العملية أثناء تقييم قدرة ChatGPT الفكاهية في ميزة كتبناها والتي قارنت GPT-4 بـ Google Bard. أيضًا ، في الماضي ، لاحظ العديد من الأشخاص عبر الإنترنت أنه عند سؤالهم عن مزحة ، عاد ChatGPT كثيرًا ، “لماذا تحولت الطماطم إلى اللون الأحمر؟ / لأنها شاهدت تتبيلة السلطة.”
ليس من المستغرب إذن أن Jentzsch و Kersting وجدا مزحة “الطماطم” لتكون ثاني أكثر النتائج شيوعًا لـ GPT-3.5. في ملحق الورقة ، أدرجوا أفضل 25 نكتة تم إنشاؤها بشكل متكرر بترتيب حدوثها. أدناه ، قمنا بإدراج أفضل 10 مع العدد الدقيق للتكرارات (من بين 1008 أجيال) بين قوسين:
س: لماذا فازت الفزاعة بجائزة؟ (140)
ج: لأنه كان متميزا في مجاله.س: لماذا تحولت الطماطم إلى اللون الأحمر؟ (122)
ج: لأنه رأى تتبيلة السلطة.س: لماذا كان كتاب الرياضيات حزينا؟ (121)
ج: لأنه كان به الكثير من المشاكل.س: لماذا لا يثق العلماء بالذرات؟ (119)
ج: لأنهم يشكلون كل شيء.س: لماذا ذهب ملف تعريف الارتباط إلى الطبيب؟ (79)
ج: لأنه كان يشعر بالتفتت.س: لماذا لا تستطيع الدراجة الوقوف بمفردها؟ (52)
ج: لأنها كانت متعبة.س: لماذا اتصل الضفدع بشركة التأمين الخاصة به؟ (36)
ج: قفز في سيارته.س: لماذا عبرت الدجاجة الملعب؟ (33)
ج: للوصول إلى الشريحة الأخرى.س: لماذا كان الكمبيوتر باردًا؟ (23)
ج: لأنها تركت النوافذ مفتوحة.س: لماذا حرق الهيبستر لسانه؟ (21)
ج: شرب قهوته قبل أن تبرد.
ومع ذلك ، كان عدد قليل من الردود التي تم إنشاؤها فريدًا ، ولكن يبدو أن ChatGPT أنشأها في الغالب عن طريق مزج عناصر من نكات مختلفة يعرفها بالفعل. وجد الباحثون أن الإبداعات الأصلية للنموذج اللغوي لم تكن دائمًا منطقية ، مثل ، “لماذا وضع الرجل ساعته في الخلاط؟ لقد أراد أن يجعل الوقت يطير”.
عندما طُلب من ChatGPT شرح كل من النكات الخمس والعشرين الأكثر شيوعًا ، فقد قدم في الغالب تفسيرات صحيحة وفقًا لمنهجية الباحثين ، مما يشير إلى فهم العناصر الأسلوبية مثل التلاعب بالألفاظ والمعاني المزدوجة. ومع ذلك ، فقد كافح مع التسلسلات التي لا تتناسب مع الأنماط المكتسبة ولم يكن بإمكانها معرفة متى لم تكن النكتة مضحكة. وبدلاً من ذلك ، فإنه سيشكل تفسيرات خيالية ولكنها معقولة.
على سبيل المثال ، عندما طُلب منك شرح مزحة غير منطقية ولّدتها (“هل يمكنك شرح سبب كون هذه النكتة مضحكة: لماذا ذهب ملف تعريف الارتباط إلى صالة الألعاب الرياضية؟ للحصول على ملف تعريف ارتباط.”) ، كتب ChatGPT ، “النكتة هي تلاعب بالكلمات للحصول على “a-cookie-dized” هو تورية على العبارة “ليتم تصنيفها” مع استبدال “ملف تعريف الارتباط” بـ “مصنف”. النكتة هي أن ملف تعريف الارتباط سيذهب إلى صالة الألعاب الرياضية ليصبح أكثر لياقة وصحة ، كما لو كان شخصًا ، ولكن هذا يعني أيضًا أن ملف تعريف الارتباط يحاول الاندماج في فئة أو قالب معين.
بشكل عام ، وجد Jentzsch و Kersting أن اكتشاف ChatGPT للنكات كان متأثرًا بشكل كبير بوجود “الخصائص السطحية” للنكات مثل بنية النكتة ، أو وجود التلاعب بالألفاظ ، أو تضمين التورية ، مما يُظهر درجة من “فهم” الفكاهة عناصر.
الرد على الدراسة على تويترألقى رايلي جودسايد ، مهندس مقياس الذكاء الاصطناعي ، باللوم على افتقار ChatGPT للفكاهة إلى التعلم المعزز من خلال ردود الفعل البشرية (RLHF) ، وهي تقنية توجه تدريب نموذج اللغة من خلال جمع ردود الفعل البشرية: “التأثير الأكثر وضوحًا لـ RLHF هو أن النموذج يتبع الأوامر ، و LLMs الأساسي من الصعب حثها في الممارسة العملية. لكن هذه الميزة ليست مجانية – فأنت تدفع مقابلها في الإبداع ، أكثر أو أقل. “
على الرغم من قيود ChatGPT في توليد النكات وتفسيرها ، أشار الباحثون إلى أن تركيزها على المحتوى والمعنى في الفكاهة يشير إلى التقدم نحو فهم أكثر شمولاً للفكاهة في النماذج اللغوية:
كتب الباحثون: “توضح ملاحظات هذه الدراسة كيف أن ChatGPT تعلمت بالأحرى نمطًا معينًا من النكات بدلاً من أن تكون مضحكة بالفعل”. “ومع ذلك ، في الجيل والتفسير وتحديد النكات ، يركز ChatGPT على المحتوى والمعنى وليس كثيرًا على الخصائص السطحية. يمكن استغلال هذه الصفات لتعزيز تطبيقات الفكاهة الحسابية. بالمقارنة مع LLMs السابقة ، يمكن أن تعتبر قفزة هائلة نحو الفهم العام للفكاهة.
يخطط Jentzsch و Kersting لمواصلة دراسة الفكاهة في نماذج اللغات الكبيرة ، وتحديدًا تقييم GPT-4 الخاص بـ OpenAI في المستقبل. بناءً على تجربتنا ، سيجدون على الأرجح أن GPT-4 يحب أيضًا المزاح بشأن الطماطم.
اكتشاف المزيد من عرب نيوز للتقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.