يوم الثلاثاء ، نشر باحثون من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي ورقة بحثية تهدف إلى إظهار التغييرات في مخرجات GPT-4 بمرور الوقت. يغذي البحث اعتقادًا شائعًا ولكن غير مثبت بأن نموذج لغة الذكاء الاصطناعي قد ازداد سوءًا في مهام الترميز والتركيب خلال الأشهر القليلة الماضية. بعض الخبراء غير مقتنعين بالنتائج ، لكنهم يقولون إن الافتقار إلى اليقين يشير إلى مشكلة أكبر في كيفية تعامل OpenAI مع إصدارات نموذجها.
في دراسة بعنوان “كيف يتغير سلوك ChatGPT بمرور الوقت؟” المنشور على arXiv و Lingjiao Chen و Matei Zaharia و James Zou ، ألقى بظلال من الشك على الأداء المتسق لنماذج OpenAI اللغوية الكبيرة (LLMs) ، وتحديداً GPT-3.5 و GPT-4. استخدام الوصول إلى API، قاموا باختبار إصدارات مارس ويونيو 2023 من هذه النماذج على مهام مثل حل المشكلات في الرياضيات ، والإجابة على الأسئلة الحساسة ، وإنشاء الكود ، والتفكير المرئي. والجدير بالذكر أن قدرة GPT-4 على تحديد الأعداد الأولية تراجعت بشكل كبير من 97.6٪ في مارس إلى 2.4٪ فقط في يونيو. الغريب ، أظهر GPT-3.5 أداءً محسنًا في نفس الفترة.
تأتي هذه الدراسة في أعقاب الأشخاص الذين يشكون بشكل متكرر من أن GPT-4 قد انخفض بشكل شخصي في الأداء خلال الأشهر القليلة الماضية. تتضمن النظريات الشائعة حول سبب تضمين نماذج “تقطير” OpenAI لتقليل النفقات الحسابية في محاولة لتسريع الإخراج وحفظ موارد وحدة معالجة الرسومات ، والضبط الدقيق (تدريب إضافي) لتقليل المخرجات الضارة التي قد يكون لها تأثيرات غير مقصودة ، وقليل من نظريات المؤامرة غير المدعومة مثل OpenAI التي تقلل من إمكانيات تشفير GPT-4 لذلك سيدفع المزيد من الأشخاص مقابل GitHub Copilot.
وفي الوقت نفسه ، أنكرت شركة OpenAI باستمرار أي مزاعم بأن GPT-4 قد انخفضت قدرتها. مؤخرًا ، الخميس الماضي ، نائب رئيس OpenAI للمنتج Peter Welinder غردو “لا ، لم نجعل GPT-4 أغبى. بل على العكس تمامًا: نجعل كل إصدار جديد أكثر ذكاءً من الإصدار السابق. الفرضية الحالية: عندما تستخدمها بكثافة ، تبدأ في ملاحظة المشكلات التي لم تراها من قبل.”
في حين أن هذه الدراسة الجديدة قد تبدو وكأنها مسدس دخان لإثبات حدس نقاد GPT-4 ، يقول آخرون إنها ليست بهذه السرعة. يعتقد أستاذ علوم الكمبيوتر في جامعة برينستون ، آرفيند نارايانان ، أن النتائج التي توصل إليها لا تثبت بشكل قاطع حدوث انخفاض في أداء GPT-4 وربما تكون متوافقة مع تعديلات الضبط الدقيقة التي أجرتها OpenAI. على سبيل المثال ، فيما يتعلق بقياس قدرات إنشاء الكود ، انتقد الدراسة لتقييمها فورية لقدرة الكود على التنفيذ بدلاً من صحتها.
“التغيير الذي أبلغوا عنه هو أن GPT-4 الأحدث يضيف نصًا غير مرمز إلى مخرجاته. إنهم لا يقومون بتقييم صحة الشفرة (غريب) ،” غرد. “إنهم يتحققون فقط مما إذا كانت الشفرة قابلة للتنفيذ مباشرة. لذا فإن محاولة النموذج الأحدث ليكون أكثر فائدة يتم احتسابها ضدها.”