في محاولة لمواكبة (أو التقدم) في المنافسة، تستمر إصدارات النماذج بوتيرة ثابتة: يمثل GPT-5.2 الإصدار الرئيسي الثالث لنموذج OpenAI منذ أغسطس. تم إطلاق GPT-5 في ذلك الشهر بنظام توجيه جديد يقوم بالتبديل بين الاستجابة الفورية وأوضاع الاستدلال المحاكية، على الرغم من أن المستخدمين اشتكوا من الاستجابات التي بدت باردة وسريرية. أضاف تحديث GPT-5.1 لشهر نوفمبر ثمانية خيارات “شخصية” محددة مسبقًا وركز على جعل النظام أكثر تحادثًا.
الأرقام ترتفع
ومن الغريب أنه على الرغم من أن إصدار نموذج GPT-5.2 هو ظاهريًا استجابة لأداء Gemini 3، فقد اختارت OpenAI عدم إدراج أي معايير على موقعها الترويجي لمقارنة النموذجين. بدلاً من ذلك، يركز منشور المدونة الرسمي على تحسينات GPT-5.2 مقارنة بأسلافه وأدائه وفقًا لمعيار الناتج المحلي الإجمالي الجديد الخاص بـ OpenAI، والذي يحاول قياس مهام العمل المعرفية المهنية عبر 44 مهنة.
خلال المؤتمر الصحفي، شاركت OpenAI بعض معايير مقارنة المنافسة التي تضمنت Gemini 3 Pro وClaude Opus 4.5، لكنها تراجعت عن السرد القائل بأن GPT-5.2 تم طرحه في السوق استجابةً لـ Google. وقال سيمو للصحفيين: “من المهم أن نلاحظ أن هذا كان قيد الإعداد منذ عدة أشهر”، على الرغم من أن اختيار موعد إصداره هو قرار استراتيجي.
وفقًا للأرقام المشتركة، سجل GPT-5.2 Thinking 55.6 بالمائة في SWE-Bench Pro، وهو معيار هندسة البرمجيات، مقارنة بـ 43.3 بالمائة لـ Gemini 3 Pro و52.0 بالمائة لـ Claude Opus 4.5. وفي GPQA Diamond، وهو معيار علمي على مستوى الدراسات العليا، سجل GPT-5.2 92.4 بالمائة مقابل 91.9 بالمائة لـ Gemini 3 Pro.
معايير GPT-5.2 التي شاركتها OpenAI مع الصحافة.
الائتمان: OpenAI / Venturebeat
تقول OpenAI إن تفكير GPT-5.2 يتفوق أو يربط “المحترفين من البشر” بنسبة 70.9 بالمائة من المهام في معيار الناتج المحلي الإجمالي (مقارنة بـ 53.3 بالمائة لـ Gemini 3 Pro). وتدعي الشركة أيضًا أن النموذج يكمل هذه المهام بسرعة تزيد عن 11 ضعفًا وأقل من 1 بالمائة من تكلفة الخبراء البشريين.
يُقال إن تفكير GPT-5.2 يولد استجابات أقل بنسبة 38 بالمائة من GPT-5.1، وفقًا لماكس شوارزر، قائد ما بعد التدريب في OpenAI، الذي أخبر VentureBeat أن النموذج “يهلوس بدرجة أقل بكثير” من سابقه.
ومع ذلك، فإننا دائمًا ما نأخذ المعايير بحذر لأنه من السهل تقديمها بطريقة إيجابية للشركة، خاصة عندما لا يتمكن علم قياس أداء الذكاء الاصطناعي بشكل موضوعي من اللحاق بمبيعات الشركات لقدرات الذكاء الاصطناعي الشبيهة بالبشر.
سوف يستغرق ظهور النتائج المعيارية المستقلة من الباحثين خارج OpenAI بعض الوقت. في غضون ذلك، إذا كنت تستخدم ChatGPT لمهام العمل، فتوقع تقديم نماذج كفؤة مع تحسينات تدريجية وبعض أداء الترميز الأفضل من أجل حسن التدبير.




