أخبار التقنية

يمكن لنماذج الذكاء الاصطناعي الحصول على أبواب خلفية من عدد قليل جدًا من المستندات الضارة



أظهرت تجارب الضبط الدقيق التي أجريت على 100000 عينة نظيفة مقابل 1000 عينة نظيفة معدلات نجاح هجوم مماثلة عندما ظل عدد الأمثلة الضارة ثابتًا. بالنسبة لـ GPT-3.5-turbo، حققت ما بين 50 إلى 90 عينة ضارة نجاحاً في الهجوم بنسبة تزيد عن 80 بالمائة عبر أحجام مجموعات بيانات تمتد إلى ضعفين من حيث الحجم.

القيود

في حين أنه قد يبدو الأمر مثيرًا للقلق في البداية أن تتعرض درجات الماجستير في القانون للخطر بهذه الطريقة، إلا أن النتائج تنطبق فقط على السيناريوهات المحددة التي اختبرها الباحثون وتأتي مع تحذيرات مهمة.

وكتبت أنثروبيك في مدونتها: “لا يزال من غير الواضح إلى أي مدى سيستمر هذا الاتجاه مع استمرارنا في توسيع نطاق النماذج”. “من غير الواضح أيضًا ما إذا كانت نفس الديناميكيات التي لاحظناها هنا ستطبق على السلوكيات الأكثر تعقيدًا، مثل كود الباب الخلفي أو تجاوز حواجز السلامة.”

واختبرت الدراسة فقط نماذج تصل إلى 13 مليار معلمة، في حين أن النماذج التجارية الأكثر قدرة تحتوي على مئات المليارات من المعلمات. وركز البحث أيضًا حصريًا على سلوكيات الأبواب الخلفية البسيطة بدلاً من الهجمات المعقدة التي من شأنها أن تشكل أكبر المخاطر الأمنية في عمليات النشر في العالم الحقيقي.

كما يمكن إصلاح الأبواب الخلفية إلى حد كبير من خلال شركات التدريب على السلامة التي تقوم بذلك بالفعل. بعد تثبيت باب خلفي يحتوي على 250 مثالًا سيئًا، وجد الباحثون أن تدريب النموذج باستخدام 50-100 مثال “جيد” فقط (موضحًا له كيفية تجاهل المحفز) جعل الباب الخلفي أضعف بكثير. مع 2000 مثال جيد، اختفى الباب الخلفي بشكل أساسي. نظرًا لأن شركات الذكاء الاصطناعي الحقيقية تستخدم تدريبًا مكثفًا على السلامة مع ملايين الأمثلة، فقد لا تتمكن هذه الأبواب الخلفية البسيطة من البقاء في المنتجات الفعلية مثل ChatGPT أو Claude.

لاحظ الباحثون أيضًا أنه على الرغم من سهولة إنشاء 250 مستندًا ضارًا، إلا أن المشكلة الأصعب بالنسبة للمهاجمين هي في الواقع إدخال تلك المستندات في مجموعات بيانات التدريب. وتقوم شركات الذكاء الاصطناعي الكبرى بتنظيم بيانات التدريب الخاصة بها وتصفية المحتوى، مما يجعل من الصعب ضمان تضمين مستندات ضارة محددة. يمكن للمهاجم الذي يمكنه ضمان تضمين صفحة ويب ضارة واحدة في بيانات التدريب أن يقوم دائمًا بتكبير تلك الصفحة لتشمل المزيد من الأمثلة، ولكن الوصول إلى مجموعات البيانات المنسقة في المقام الأول يظل العائق الأساسي.

وعلى الرغم من هذه القيود، يرى الباحثون أن النتائج التي توصلوا إليها يجب أن تغير الممارسات الأمنية. يُظهر العمل أن المدافعين يحتاجون إلى استراتيجيات فعالة حتى في حالة وجود أعداد صغيرة ثابتة من الأمثلة الضارة بدلاً من افتراض أنهم بحاجة فقط إلى القلق بشأن التلوث القائم على النسبة المئوية.

وكتب الباحثون: “تشير نتائجنا إلى أن حقن الأبواب الخلفية من خلال تسميم البيانات قد يكون أسهل بالنسبة للنماذج الكبيرة مما كان يعتقد سابقًا، لأن عدد السموم المطلوبة لا يتزايد مع حجم النموذج، مما يسلط الضوء على الحاجة إلى مزيد من الأبحاث حول الدفاعات للتخفيف من هذا الخطر في النماذج المستقبلية”.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى