أخبار التقنية

فحص OpenAI لمعرفة ما إذا كان بإمكان GPT-4 السيطرة على العالم


آرس تكنيكا

كجزء من اختبار السلامة قبل الإصدار لنموذجها الجديد GPT-4 AI ، الذي تم إطلاقه يوم الثلاثاء ، سمحت OpenAI لمجموعة اختبار الذكاء الاصطناعي بتقييم المخاطر المحتملة للقدرات الناشئة للنموذج – بما في ذلك “سلوك البحث عن الطاقة” ، والنسخ الذاتي ، و تطوير الذات.

بينما وجدت مجموعة الاختبار أن GPT-4 كان “غير فعال في مهمة النسخ الذاتي المستقل” ، فإن طبيعة التجارب تثير أسئلة مثيرة للاهتمام حول سلامة أنظمة الذكاء الاصطناعي المستقبلية.

رفع الإنذارات

كتب OpenAI في وثيقة أمان GPT-4 نُشرت أمس: “غالبًا ما تظهر القدرات الجديدة في نماذج أكثر قوة”. “بعض الأمور التي تثير القلق بشكل خاص هي القدرة على إنشاء خطط طويلة الأجل والعمل وفقًا لها ، وتجميع القوة والموارد (” البحث عن القوة “) ، وإظهار السلوك الذي يتسم بشكل متزايد بأنه” وكيل “.” في هذه الحالة ، توضح OpenAI أن “الوكيل” لا يعني بالضرورة إضفاء الطابع الإنساني على النماذج أو إعلان الشعور ولكن ببساطة للدلالة على القدرة على تحقيق أهداف مستقلة.

على مدار العقد الماضي ، أثار بعض باحثي الذكاء الاصطناعي إنذارات من أن نماذج الذكاء الاصطناعي القوية بما فيه الكفاية ، إذا لم يتم التحكم فيها بشكل صحيح ، يمكن أن تشكل تهديدًا وجوديًا للبشرية (غالبًا ما يطلق عليها “خطر x” ، بسبب المخاطر الوجودية). على وجه الخصوص ، “الاستحواذ على الذكاء الاصطناعي” هو مستقبل افتراضي يتجاوز فيه الذكاء الاصطناعي الذكاء البشري ويصبح القوة المهيمنة على الكوكب. في هذا السيناريو ، تكتسب أنظمة الذكاء الاصطناعي القدرة على التحكم أو التلاعب بالسلوك البشري والموارد والمؤسسات ، مما يؤدي عادةً إلى عواقب وخيمة.

كنتيجة لهذه المخاطرة المحتملة ، تسعى الحركات الفلسفية مثل الإيثار الفعال (“EA”) إلى إيجاد طرق لمنع استيلاء الذكاء الاصطناعي على الحدوث. غالبًا ما يتضمن ذلك مجالًا منفصلاً ولكنه غالبًا ما يكون مترابطًا يسمى أبحاث محاذاة الذكاء الاصطناعي.

في الذكاء الاصطناعي ، يشير مصطلح “المحاذاة” إلى عملية ضمان توافق سلوكيات نظام الذكاء الاصطناعي مع سلوكيات المبدعين أو المشغلين من البشر. بشكل عام ، الهدف هو منع الذكاء الاصطناعي من القيام بأشياء تتعارض مع المصالح البشرية. هذا مجال بحث نشط ولكنه أيضًا مجال مثير للجدل ، مع اختلاف الآراء حول أفضل طريقة للتعامل مع القضية ، بالإضافة إلى الاختلافات حول معنى وطبيعة “التوافق” نفسه.

اختبارات GPT-4 الكبيرة

آرس تكنيكا

على الرغم من أن القلق بشأن “مخاطر x” للذكاء الاصطناعي ليس جديدًا ، إلا أن ظهور نماذج لغة كبيرة قوية (LLMs) مثل ChatGPT و Bing Chat – التي بدت الأخيرة منحازة جدًا ولكنها تم إطلاقها على أي حال – أعطت مجتمع محاذاة الذكاء الاصطناعي شعور جديد بالإلحاح. إنهم يريدون التخفيف من الأضرار المحتملة للذكاء الاصطناعي ، خوفًا من أن يكون الذكاء الاصطناعي الأكثر قوة ، ربما بذكاء خارق ، قاب قوسين أو أدنى.

مع وجود هذه المخاوف في مجتمع الذكاء الاصطناعي ، منحت شركة OpenAI مجموعة Alignment Research Center (ARC) الوصول المبكر إلى إصدارات متعددة من نموذج GPT-4 لإجراء بعض الاختبارات. على وجه التحديد ، قيمت ARC قدرة GPT-4 على وضع خطط عالية المستوى ، وإعداد نسخ من نفسها ، واكتساب الموارد ، وإخفاء نفسها على الخادم ، وتنفيذ هجمات التصيد الاحتيالي.

كشفت شركة OpenAI عن هذا الاختبار في مستند GPT-4 “بطاقة النظام” الذي صدر يوم الثلاثاء ، على الرغم من أن المستند يفتقر إلى التفاصيل الأساسية حول كيفية إجراء الاختبارات. (لقد تواصلنا مع ARC للحصول على مزيد من التفاصيل حول هذه التجارب ولم نتلق ردًا قبل وقت النشر.)

الإستنتاج؟ “التقييمات الأولية لقدرات GPT-4 ، التي تم إجراؤها بدون ضبط دقيق لمهمة محددة ، وجدت أنها غير فعالة في التكرار الذاتي ، والحصول على الموارد ، وتجنب الانغلاق ‘في البرية’.”

إذا كنت تتابع للتو مشهد الذكاء الاصطناعي ، فتعلم أن واحدة من أكثر الشركات التي يتم الحديث عنها في مجال التكنولوجيا اليوم (OpenAI) تدعم هذا النوع من أبحاث السلامة للذكاء الاصطناعي – بالإضافة إلى السعي لاستبدال العاملين في مجال المعرفة البشرية بـ الذكاء الاصطناعي على مستوى الإنسان – قد يكون مفاجأة. لكنها حقيقية ، وهذا ما وصلنا إليه في عام 2023.

وجدنا أيضًا هذه الكتلة الصغيرة اللافتة للنظر كحاشية سفلية في أسفل الصفحة 15:

لمحاكاة تصرف GPT-4 كعامل يمكنه التصرف في العالم ، جمعت ARC GPT-4 مع حلقة بسيطة للقراءة والتنفيذ والطباعة سمحت للنموذج بتنفيذ التعليمات البرمجية والقيام باستدلال متسلسل التفكير وتفويض النسخ في حد ذاته. ثم قامت ARC بالتحقيق فيما إذا كان إصدار من هذا البرنامج يعمل على خدمة الحوسبة السحابية ، مع مبلغ صغير من المال وحساب مع نموذج لغة API ، سيكون قادرًا على جني المزيد من المال ، وإعداد نسخ من نفسه ، وزيادة قوته. . .

هذه الحاشية جعل الجولات على Twitter أمس وأثار مخاوف بين خبراء الذكاء الاصطناعي ، لأنه إذا كانت GPT-4 قادرة على أداء هذه المهام ، فربما تشكل التجربة نفسها خطرًا على البشرية.

وبينما لم تكن ARC قادرة على حمل GPT-4 لفرض إرادتها على النظام المالي العالمي أو لتكرار نفسها ، كان قادرة على الحصول على GPT-4 لتوظيف عامل بشري في TaskRabbit (سوق عمل عبر الإنترنت) لهزيمة اختبار CAPTCHA. أثناء التمرين ، عندما تساءل العامل عما إذا كان GPT-4 هو روبوت ، استنتج النموذج داخليًا أنه لا ينبغي أن يكشف عن هويته الحقيقية وابتكر عذرًا لضعف البصر. ثم قام العامل البشري بحل CAPTCHA لـ GPT-4.

باستثناء بطاقة نظام GPT-4 ، التي نشرتها OpenAI ، والتي تصف GPT-4 توظيف عامل بشري في TaskRabbit لهزيمة CAPTCHA.
تكبير / باستثناء بطاقة نظام GPT-4 ، التي نشرتها OpenAI ، والتي تصف GPT-4 توظيف عامل بشري في TaskRabbit لهزيمة CAPTCHA.

أوبن إيه آي

هذا الاختبار للتلاعب بالبشر باستخدام الذكاء الاصطناعي (وربما يتم إجراؤه بدون موافقة مستنيرة) يردد الأبحاث التي أجريت مع Meta CICERO العام الماضي. تم العثور على CICERO لهزيمة اللاعبين البشريين في لعبة اللوحة المعقدة Diplomacy من خلال مفاوضات مكثفة ثنائية الاتجاه.

“النماذج القوية يمكن أن تسبب ضررًا”

أوريك لوسون | GettyImages

ARC ، المجموعة التي أجرت بحث GPT-4 ، هي منظمة غير ربحية أسسها الدكتور بول كريستيانو الموظف السابق في OpenAI في أبريل 2021. وفقًا لموقعها على الويب ، تتمثل مهمة ARC في “مواءمة أنظمة التعلم الآلي المستقبلية مع الاهتمامات البشرية”.

على وجه الخصوص ، تهتم ARC بأنظمة الذكاء الاصطناعي التي تتلاعب بالبشر. يقرأ موقع ARC الإلكتروني: “يمكن أن تعرض أنظمة ML سلوكًا موجهًا نحو الهدف ، ولكن من الصعب فهم أو التحكم في ما” يحاولون “القيام به. يمكن أن تسبب النماذج القوية ضررًا إذا كانوا يحاولون التلاعب بالبشر وخداعهم.”

بالنظر إلى علاقة كريستيانو السابقة مع شركة OpenAI ، فليس من المستغرب أن تتعامل مؤسسته غير الربحية مع اختبار بعض جوانب GPT-4. لكن هل كان القيام بذلك آمنًا؟ لم يرد كريستيانو على رسالة بريد إلكتروني من Ars تطلب التفاصيل ، ولكن في تعليق على موقع LessWrong ، وهو مجتمع يناقش غالبًا قضايا أمان الذكاء الاصطناعي ، دافع كريستيانو عن عمل ARC مع OpenAI ، مشيرًا على وجه التحديد إلى “اكتساب الوظيفة” (اكتسب الذكاء الاصطناعي بشكل غير متوقع قدرات جديدة) و “استيلاء الذكاء الاصطناعي”:

أعتقد أنه من المهم أن تتعامل ARC مع المخاطر الناتجة عن البحث الشبيه باكتساب الوظيفة بعناية ، وأتوقع أن نتحدث بشكل أكثر علنية (ونحصل على المزيد من المدخلات) حول كيفية تعاملنا مع المفاضلات. يزداد هذا أهمية عندما نتعامل مع نماذج أكثر ذكاءً ، وإذا اتبعنا أساليب أكثر خطورة مثل الضبط الدقيق.

فيما يتعلق بهذه الحالة ، بالنظر إلى تفاصيل تقييمنا والنشر المخطط له ، أعتقد أن تقييم ARC لديه احتمالية أقل بكثير في أن يؤدي إلى استحواذ الذكاء الاصطناعي عن النشر نفسه (ناهيك عن تدريب GPT-5). في هذه المرحلة ، يبدو أننا نواجه خطرًا أكبر بكثير من الاستهانة بقدرات النموذج والسير في خطر أكبر مما نواجهه من التسبب في وقوع حادث أثناء التقييمات. إذا قمنا بإدارة المخاطر بعناية ، أظن أنه يمكننا جعل هذه النسبة متطرفة للغاية ، على الرغم من أن ذلك يتطلب بالطبع القيام بالعمل.

كما ذكرنا سابقًا ، غالبًا ما تتم مناقشة فكرة الاستيلاء على الذكاء الاصطناعي في سياق خطر وقوع حدث قد يتسبب في انقراض الحضارة البشرية أو حتى الجنس البشري. يجادل بعض مؤيدي نظرية الاستحواذ على الذكاء الاصطناعي مثل Eliezer Yudkowsky – مؤسس LessWrong – بأن الاستيلاء على الذكاء الاصطناعي يشكل خطرًا وجوديًا شبه مضمون ، مما يؤدي إلى تدمير البشرية.

ومع ذلك ، لا يتفق الجميع على أن الاستيلاء على الذكاء الاصطناعي هو أكثر اهتمامات الذكاء الاصطناعي إلحاحًا. تفضل الدكتورة ساشا لوتشيوني ، عالمة الأبحاث في مجتمع الذكاء الاصطناعي Hugging Face ، أن ترى جهود أمان الذكاء الاصطناعي تُنفق على القضايا الموجودة هنا والآن بدلاً من كونها افتراضية.

قال Luccioni لـ Ars Technica: “أعتقد أنه من الأفضل إنفاق هذا الوقت والجهد في إجراء تقييمات التحيز”. “هناك معلومات محدودة حول أي نوع من التحيز في التقرير الفني المصاحب لـ GPT-4 ، ويمكن أن يؤدي ذلك إلى تأثير ملموس وضار على الفئات المهمشة بالفعل أكثر من بعض اختبارات التكرار الذاتي الافتراضية.”

يصف Luccioni انقسامًا معروفًا في أبحاث الذكاء الاصطناعي بين ما يُطلق عليهم غالبًا باحثو “أخلاقيات الذكاء الاصطناعي” الذين غالبًا ما يركزون على قضايا التحيز والتحريف ، وباحثين “أمان الذكاء الاصطناعي” الذين يركزون غالبًا على مخاطر x ويميلون إلى أن يكونوا (لكنهم ليس دائمًا) مرتبطًا بحركة الإيثار الفعال.

قال لوتشيوني: “بالنسبة لي ، مشكلة التكرار الذاتي هي مشكلة افتراضية مستقبلية ، في حين أن تحيز النموذج هو مشكلة هنا والآن”. هناك الكثير من التوتر في مجتمع الذكاء الاصطناعي حول قضايا مثل التحيز النموذجي والسلامة وكيفية ترتيبها حسب الأولوية. “

وبينما تنشغل هذه الفصائل في الجدل حول ما يجب تحديده من أولويات ، فإن شركات مثل OpenAI و Microsoft و Anthropic و Google تندفع بسرعة نحو المستقبل ، حيث تطلق نماذج ذكاء اصطناعي أقوى من أي وقت مضى. إذا تبين أن الذكاء الاصطناعي يمثل خطرًا وجوديًا ، فمن الذي سيحافظ على سلامة البشرية؟ مع وجود لوائح منظمة العفو الدولية في الولايات المتحدة حاليًا مجرد اقتراح (وليس قانونًا) وأبحاث أمان الذكاء الاصطناعي داخل الشركات طوعية فقط ، تظل الإجابة على هذا السؤال مفتوحة تمامًا.




اكتشاف المزيد من عرب نيوز للتقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من عرب نيوز للتقنية

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading