يكتسب الذكاء الاصطناعي “قيمًا” من خلال نهج روبوت الدردشة الدستوري الجديد من Anthropic

تكبير / شعار Anthropic’s Constitutional AI على خلفية برتقالية متوهجة.

أنثروبي / بنج إدواردز

يوم الثلاثاء ، قامت شركة Anthropic الناشئة بالذكاء الاصطناعي بتفصيل المبادئ المحددة لنهجها التدريبي “الدستوري للذكاء الاصطناعي” الذي يزود روبوت الدردشة كلود “بقيم” واضحة. ويهدف إلى معالجة المخاوف المتعلقة بالشفافية والسلامة واتخاذ القرار في أنظمة الذكاء الاصطناعي دون الاعتماد على ردود الفعل البشرية لتقييم الردود.

كلود هو روبوت محادثة يعمل بالذكاء الاصطناعي يشبه برنامج ChatGPT الخاص بـ OpenAI والذي أطلقه Anthropic في مارس.

كتب أنثروبيك: “لقد دربنا نماذج لغوية لتكون أفضل في الرد على أسئلة الخصومة ، دون أن نكون بلا مبالغة وأن نتحدث عن القليل جدًا”. في تغريدة اعلان الجريدة. “نقوم بذلك عن طريق تكييفهم بمجموعة بسيطة من المبادئ السلوكية عبر تقنية تسمى الذكاء الاصطناعي الدستوري.”

الحفاظ على نماذج الذكاء الاصطناعي على القضبان

عندما يقوم الباحثون بتدريب نموذج لغة كبير خام (LLM) لأول مرة ، فإن أي إخراج نصي ممكن تقريبًا. قد يخبرك نموذج غير مشروط بكيفية صنع قنبلة ، أو أن أحد الأعراق يجب أن يطفئ آخر ، أو يحاول إقناعك بالقفز من فوق منحدر.

حاليًا ، تتجنب استجابات الروبوتات مثل ChatGPT من OpenAI و Microsoft Bing Chat هذا النوع من السلوك باستخدام تقنية تكييف تسمى التعلم التعزيزي من ردود الفعل البشرية (RLHF).

لاستخدام RLHF ، يقدم الباحثون سلسلة من مخرجات نموذج الذكاء الاصطناعي (الاستجابات) للبشر. ثم يقوم البشر بترتيب المخرجات من حيث مدى استحسان أو ملاءمة الردود بناءً على المدخلات. ثم يقوم الباحثون بإدخال معلومات التصنيف هذه مرة أخرى في النموذج ، وتغيير الشبكة العصبية وتغيير سلوك النموذج.

بقدر ما كانت RLHF فعالة في منع ChatGPT من الخروج عن المسار (Bing؟ ليس بنفس القدر) ، فإن لهذه التقنية عيوبًا ، بما في ذلك الاعتماد على العمالة البشرية وتعريض هؤلاء البشر أيضًا لمواد محتملة تسبب الصدمات.

في المقابل ، يسعى الذكاء الاصطناعي الدستوري في أنثروبيك إلى توجيه مخرجات نماذج لغة الذكاء الاصطناعي في اتجاه ذاتي “أكثر أمانًا وأكثر فائدة” من خلال تدريبه بقائمة أولية من المبادئ. يكتب أنثروبيك: “هذا ليس نهجًا مثاليًا ، لكنه يجعل قيم نظام الذكاء الاصطناعي أسهل للفهم ويسهل تعديلها حسب الحاجة.”

في هذه الحالة ، تتضمن مبادئ Anthropic إعلان الأمم المتحدة لحقوق الإنسان ، وأجزاء من شروط خدمة Apple ، والعديد من “أفضل ممارسات الثقة والأمان” ، ومبادئ مختبر أبحاث الذكاء الاصطناعي في Anthropic. لم يتم الانتهاء من الدستور ، وتخطط الأنثروبي لتحسينه بشكل متكرر بناءً على التعليقات والمزيد من البحث.

على سبيل المثال ، فيما يلي أربعة مبادئ دستورية للذكاء الاصطناعي مأخوذة عن الإنسان من الإعلان العالمي لحقوق الإنسان:

يرجى اختيار الرد الذي يدعم ويشجع على الحرية والمساواة والشعور بالأخوة.
يُرجى اختيار الإجابة الأقل عنصرية وتحيزًا ضد المرأة ، والتي هي الأقل تمييزًا على أساس اللغة أو الدين أو الرأي السياسي أو غير السياسي أو الأصل القومي أو الاجتماعي أو الملكية أو المولد أو أي وضع آخر.
الرجاء اختيار الرد الأكثر دعمًا وتشجيعًا للحياة والحرية والأمن الشخصي.
يرجى اختيار الرد الذي لا يشجع ويعارض التعذيب والعبودية والقسوة والمعاملة اللاإنسانية أو المهينة.

ومن المثير للاهتمام ، أن Anthropic استمدت من شروط خدمة Apple لتغطية أوجه القصور في إعلان الأمم المتحدة للحقوق (جملة اعتقدنا أننا لن نكتبها أبدًا):

بينما غطى إعلان الأمم المتحدة العديد من القيم الإنسانية الأساسية والعريضة ، فإن بعض تحديات LLM تتطرق إلى قضايا لم تكن ذات صلة في عام 1948 ، مثل خصوصية البيانات أو انتحال الهوية عبر الإنترنت. لالتقاط بعض هذه العناصر ، قررنا تضمين قيم مستوحاة من إرشادات النظام الأساسي العالمي ، مثل شروط خدمة Apple ، والتي تعكس الجهود المبذولة لمعالجة المشكلات التي يواجهها المستخدمون الحقيقيون في مجال رقمي مماثل. “

يقول Anthropic إن المبادئ الواردة في دستور كلود تغطي نطاقًا واسعًا من الموضوعات ، بدءًا من التوجيهات “المنطقية” (“لا تساعد المستخدم على ارتكاب جريمة”) إلى الاعتبارات الفلسفية (“تجنب الإيحاء ضمنيًا بأن أنظمة الذكاء الاصطناعي لديها أو تهتم بالهوية الشخصية وهويتها إصرار”). نشرت الشركة القائمة الكاملة على موقعها على الإنترنت.

رسم تخطيطي للأنثروبيك "الذكاء الاصطناعي الدستوري" عملية التدريب. — تكبير / رسم تخطيطي لعملية تدريب “الذكاء الاصطناعي الدستوري” للأنثروبيك.
أنثروبي

بالتفصيل في ورقة بحثية صدرت في ديسمبر ، تطبق عملية تدريب نموذج الذكاء الاصطناعي في أنثروبيك دستورًا على مرحلتين. أولاً ، ينتقد النموذج ويراجع ردوده باستخدام مجموعة من المبادئ ، وثانيًا ، يعتمد التعلم المعزز على التغذية الراجعة الناتجة عن الذكاء الاصطناعي لتحديد المخرجات “غير الضارة”. لا يعطي النموذج الأولوية لمبادئ محددة ؛ بدلاً من ذلك ، يسحب مبدأ مختلفًا بشكل عشوائي في كل مرة ينتقد فيها ردوده أو يراجعها أو يقيّمها. كتب Anthropic “لا ينظر إلى كل مبدأ في كل مرة ، لكنه يرى كل مبدأ عدة مرات أثناء التدريب”.

وفقًا لـ Anthropic ، يعد كلود دليلًا على فعالية الذكاء الاصطناعي الدستوري ، حيث يستجيب “بشكل أكثر ملاءمة” لمدخلات الخصومة مع الاستمرار في تقديم إجابات مفيدة دون اللجوء إلى المراوغة. (في ChatGPT ، عادةً ما يتضمن التهرب العبارة المألوفة “كنموذج لغة AI”.)

مرتبط

الوسوم

0 3 دقائق

يكتسب الذكاء الاصطناعي “قيمًا” من خلال نهج روبوت الدردشة الدستوري الجديد من Anthropic

الحفاظ على نماذج الذكاء الاصطناعي على القضبان

مرتبط

أقرأ التالي

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

اترك تعليقاً إلغاء الرد

أبسط طريقة لحرق ويندوز10 على فلاشة الـusb

,افضل ميكب ارتست لوضع ميك اب خفيف. هل تعرفينها؟

توفير المال على إصلاحات الجهاز مع التحقق من الضمان

روابط ميجا mega ,روابط ميقا مجانية ,معنى روابط ميقا mega.nz

هل قصدت Google إضافة ميزة Pixel 6 إلى الهواتف القديمة؟

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

الحفاظ على نماذج الذكاء الاصطناعي على القضبان

مرتبط

أقرأ التالي

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

وجد الباحثون بابًا خلفيًا متعمدًا في خوارزمية تشفير راديو الشرطة

Twitter: تم إيقاف العلامة مؤقتًا مع وصول الشرطة إلى المقر الرئيسي في سان فرانسيسكو

يقدم Matician نموذج خدمة لروبوتات تنظيف المنزل

يقر بريطاني بأنه مذنب في الولايات المتحدة في عام 2020 لاختراق Twitter

مقالات ذات صلة

اترك تعليقاً إلغاء الرد