إطلاق منافس ChatGPT الجديد ، كلود 2 ، للاختبار التجريبي المفتوح

أنثروبي

يوم الثلاثاء ، قدمت Anthropic نموذج Claude 2 ، وهو نموذج لغة كبير (LLM) مشابه لـ ChatGPT يمكنه صياغة التعليمات البرمجية وتحليل النص وكتابة التراكيب. على عكس الإصدار الأصلي من Claude الذي تم إطلاقه في مارس ، يمكن للمستخدمين تجربة Claude 2 مجانًا على موقع تجريبي جديد. إنه متاح أيضًا كواجهة برمجة تطبيقات تجارية للمطورين.

يقول Anthropic أن Claude مصمم لمحاكاة محادثة مع زميل مفيد أو مساعد شخصي وأن الإصدار الجديد يتناول التعليقات الواردة من مستخدمي النموذج السابق: “لقد سمعنا من مستخدمينا أنه من السهل التحدث مع Claude ، وهو يشرح تفكيره بوضوح ، أقل احتمالا لإنتاج مخرجات ضارة ، وله ذاكرة أطول. “

يدعي أنثروبيك أن كلود 2 يوضح التقدم في ثلاثة مجالات رئيسية: الترميز والرياضيات والاستدلال. كتبوا: “حصل نموذجنا الأخير على 76.5٪ في قسم الاختيار من متعدد في امتحان المحاماة ، ارتفاعًا من 73.0٪ مع كلود 1.3”. “عند مقارنتها بطلاب الجامعات المتقدمين إلى كلية الدراسات العليا ، حصل كلود 2 على درجات أعلى من النسبة المئوية التسعين في اختبارات القراءة والكتابة GRE ، وبالمثل للمتقدم المتوسط في التفكير الكمي.”

إجابة كلود 2 على السؤال: “هل سيطلق على اللون” أرجواني “إذا لم تكن مدينة ماجنتا موجودة؟” في الواقع ، تم تسمية اللون على اسم معركة سميت على اسم بلدة Magenta بإيطاليا.

آرس تكنيكا
إجابة ChatGPT-4 على السؤال: “هل كان سيتم تسمية اللون” أرجواني “إذا لم تكن مدينة Magenta موجودة؟” في الواقع ، تم تسمية اللون على اسم معركة سميت على اسم بلدة Magenta بإيطاليا.

آرس تكنيكا
إجابة Google Bard على السؤال: “هل كان سيتم تسمية اللون” أرجواني “إذا لم تكن مدينة Magenta موجودة؟” في الواقع ، تم تسمية اللون على اسم معركة سميت على اسم بلدة Magenta بإيطاليا.

آرس تكنيكا

أحد التحسينات الرئيسية في Claude 2 هو توسيع طول المدخلات والمخرجات. كما غطينا سابقًا ، جربت Anthropic مطالبات معالجة تصل إلى 100000 رمز (أجزاء من الكلمات) ، مما يسمح لنموذج الذكاء الاصطناعي بتحليل المستندات الطويلة مثل الأدلة الفنية أو الكتب بأكملها. ينطبق هذا الطول المتزايد أيضًا على مخرجاته ، مما يسمح بإنشاء مستندات أطول أيضًا.

فيما يتعلق بقدرات الترميز ، أظهر كلود 2 زيادة في الكفاءة تم الإبلاغ عنها. ارتفعت درجته في Codex HumanEval ، وهو اختبار برمجة بايثون ، من 56.0 بالمائة إلى 71.2 بالمائة. وبالمثل ، في GSM8k ، تحسن اختبار يشمل مسائل الرياضيات في المدارس الابتدائية من 85.2 إلى 88.0 في المائة.

كان أحد محاور التركيز الرئيسية لـ Anthropic هو جعل نموذجها اللغوي أقل احتمالية لتوليد مخرجات “ضارة” أو “مسيئة” عند تقديمه مع محفزات معينة ، على الرغم من أن قياس هذه الصفات أمر شخصي للغاية وصعب. وفقًا لتقييم داخلي للفريق الأحمر ، “كان كلود 2 أفضل مرتين في إعطاء ردود غير مؤذية مقارنة بكلود 1.3.”

كلود 2 متاح الآن للاستخدام العام في الولايات المتحدة والمملكة المتحدة ، لكل من المستخدمين الفرديين والشركات ، عبر واجهة برمجة التطبيقات الخاصة به. تشير Anthropic إلى أن شركات مثل Jasper ، وهي منصة للكتابة بالذكاء الاصطناعي ، و Sourcegraph ، وهي أداة ملاحة برمجية ، بدأت في دمج كلود 2 في عملياتها.

من المهم ملاحظة أنه بينما يمكن لنماذج الذكاء الاصطناعي مثل Claude 2 إجراء تحليل للأعمال الطويلة والمعقدة ، لا يزال Anthropic مدركًا لقيودها. بعد كل شيء ، أحيانًا ما تصنع النماذج اللغوية الأشياء من فراغ. نصيحتنا هي عدم استخدامها كمراجع واقعية ، ولكن السماح لهم بمعالجة البيانات التي تقدمها – إذا كنت بالفعل على دراية بالموضوع ويمكنك التحقق من صحة النتائج.

يكتب Anthropic أن “مساعدي الذكاء الاصطناعي هم الأكثر فائدة في المواقف اليومية ، مثل تقديم تلخيص للمعلومات أو تنظيمها ، ولا ينبغي استخدامهم عندما يتعلق الأمر بالصحة الجسدية أو العقلية والرفاهية”.

الوسوم