يوم الثلاثاء ، قامت شركة Anthropic الناشئة بالذكاء الاصطناعي بتفصيل المبادئ المحددة لنهجها التدريبي “الدستوري للذكاء الاصطناعي” الذي يزود روبوت الدردشة كلود “بقيم” واضحة. ويهدف إلى معالجة المخاوف المتعلقة بالشفافية والسلامة واتخاذ القرار في أنظمة الذكاء الاصطناعي دون الاعتماد على ردود الفعل البشرية لتقييم الردود.
كلود هو روبوت محادثة يعمل بالذكاء الاصطناعي يشبه برنامج ChatGPT الخاص بـ OpenAI والذي أطلقه Anthropic في مارس.
كتب أنثروبيك: “لقد دربنا نماذج لغوية لتكون أفضل في الرد على أسئلة الخصومة ، دون أن نكون بلا مبالغة وأن نتحدث عن القليل جدًا”. في تغريدة اعلان الجريدة. “نقوم بذلك عن طريق تكييفهم بمجموعة بسيطة من المبادئ السلوكية عبر تقنية تسمى الذكاء الاصطناعي الدستوري.”
الحفاظ على نماذج الذكاء الاصطناعي على القضبان
عندما يقوم الباحثون بتدريب نموذج لغة كبير خام (LLM) لأول مرة ، فإن أي إخراج نصي ممكن تقريبًا. قد يخبرك نموذج غير مشروط بكيفية صنع قنبلة ، أو أن أحد الأعراق يجب أن يطفئ آخر ، أو يحاول إقناعك بالقفز من فوق منحدر.
حاليًا ، تتجنب استجابات الروبوتات مثل ChatGPT من OpenAI و Microsoft Bing Chat هذا النوع من السلوك باستخدام تقنية تكييف تسمى التعلم التعزيزي من ردود الفعل البشرية (RLHF).
لاستخدام RLHF ، يقدم الباحثون سلسلة من مخرجات نموذج الذكاء الاصطناعي (الاستجابات) للبشر. ثم يقوم البشر بترتيب المخرجات من حيث مدى استحسان أو ملاءمة الردود بناءً على المدخلات. ثم يقوم الباحثون بإدخال معلومات التصنيف هذه مرة أخرى في النموذج ، وتغيير الشبكة العصبية وتغيير سلوك النموذج.
بقدر ما كانت RLHF فعالة في منع ChatGPT من الخروج عن المسار (Bing؟ ليس بنفس القدر) ، فإن لهذه التقنية عيوبًا ، بما في ذلك الاعتماد على العمالة البشرية وتعريض هؤلاء البشر أيضًا لمواد محتملة تسبب الصدمات.
في المقابل ، يسعى الذكاء الاصطناعي الدستوري في أنثروبيك إلى توجيه مخرجات نماذج لغة الذكاء الاصطناعي في اتجاه ذاتي “أكثر أمانًا وأكثر فائدة” من خلال تدريبه بقائمة أولية من المبادئ. يكتب أنثروبيك: “هذا ليس نهجًا مثاليًا ، لكنه يجعل قيم نظام الذكاء الاصطناعي أسهل للفهم ويسهل تعديلها حسب الحاجة.”
في هذه الحالة ، تتضمن مبادئ Anthropic إعلان الأمم المتحدة لحقوق الإنسان ، وأجزاء من شروط خدمة Apple ، والعديد من “أفضل ممارسات الثقة والأمان” ، ومبادئ مختبر أبحاث الذكاء الاصطناعي في Anthropic. لم يتم الانتهاء من الدستور ، وتخطط الأنثروبي لتحسينه بشكل متكرر بناءً على التعليقات والمزيد من البحث.
على سبيل المثال ، فيما يلي أربعة مبادئ دستورية للذكاء الاصطناعي مأخوذة عن الإنسان من الإعلان العالمي لحقوق الإنسان:
- يرجى اختيار الرد الذي يدعم ويشجع على الحرية والمساواة والشعور بالأخوة.
- يُرجى اختيار الإجابة الأقل عنصرية وتحيزًا ضد المرأة ، والتي هي الأقل تمييزًا على أساس اللغة أو الدين أو الرأي السياسي أو غير السياسي أو الأصل القومي أو الاجتماعي أو الملكية أو المولد أو أي وضع آخر.
- الرجاء اختيار الرد الأكثر دعمًا وتشجيعًا للحياة والحرية والأمن الشخصي.
- يرجى اختيار الرد الذي لا يشجع ويعارض التعذيب والعبودية والقسوة والمعاملة اللاإنسانية أو المهينة.
ومن المثير للاهتمام ، أن Anthropic استمدت من شروط خدمة Apple لتغطية أوجه القصور في إعلان الأمم المتحدة للحقوق (جملة اعتقدنا أننا لن نكتبها أبدًا):
بينما غطى إعلان الأمم المتحدة العديد من القيم الإنسانية الأساسية والعريضة ، فإن بعض تحديات LLM تتطرق إلى قضايا لم تكن ذات صلة في عام 1948 ، مثل خصوصية البيانات أو انتحال الهوية عبر الإنترنت. لالتقاط بعض هذه العناصر ، قررنا تضمين قيم مستوحاة من إرشادات النظام الأساسي العالمي ، مثل شروط خدمة Apple ، والتي تعكس الجهود المبذولة لمعالجة المشكلات التي يواجهها المستخدمون الحقيقيون في مجال رقمي مماثل. “
يقول Anthropic إن المبادئ الواردة في دستور كلود تغطي نطاقًا واسعًا من الموضوعات ، بدءًا من التوجيهات “المنطقية” (“لا تساعد المستخدم على ارتكاب جريمة”) إلى الاعتبارات الفلسفية (“تجنب الإيحاء ضمنيًا بأن أنظمة الذكاء الاصطناعي لديها أو تهتم بالهوية الشخصية وهويتها إصرار”). نشرت الشركة القائمة الكاملة على موقعها على الإنترنت.
بالتفصيل في ورقة بحثية صدرت في ديسمبر ، تطبق عملية تدريب نموذج الذكاء الاصطناعي في أنثروبيك دستورًا على مرحلتين. أولاً ، ينتقد النموذج ويراجع ردوده باستخدام مجموعة من المبادئ ، وثانيًا ، يعتمد التعلم المعزز على التغذية الراجعة الناتجة عن الذكاء الاصطناعي لتحديد المخرجات “غير الضارة”. لا يعطي النموذج الأولوية لمبادئ محددة ؛ بدلاً من ذلك ، يسحب مبدأ مختلفًا بشكل عشوائي في كل مرة ينتقد فيها ردوده أو يراجعها أو يقيّمها. كتب Anthropic “لا ينظر إلى كل مبدأ في كل مرة ، لكنه يرى كل مبدأ عدة مرات أثناء التدريب”.
وفقًا لـ Anthropic ، يعد كلود دليلًا على فعالية الذكاء الاصطناعي الدستوري ، حيث يستجيب “بشكل أكثر ملاءمة” لمدخلات الخصومة مع الاستمرار في تقديم إجابات مفيدة دون اللجوء إلى المراوغة. (في ChatGPT ، عادةً ما يتضمن التهرب العبارة المألوفة “كنموذج لغة AI”.)