في يوم الجمعة ، أعلنت Meta عن نموذج لغة كبير (LLM) جديد مدعوم بالذكاء الاصطناعي يسمى LLaMA-13B تدعي أنه يمكن أن يتفوق على نموذج OpenAI’s GPT-3 على الرغم من كونه “أصغر بعشر مرات”. يمكن أن تؤدي نماذج الذكاء الاصطناعي الأصغر حجمًا إلى تشغيل مساعدين لغويين على غرار ChatGPT محليًا على أجهزة مثل أجهزة الكمبيوتر والهواتف الذكية. إنه جزء من عائلة جديدة من نماذج اللغة تسمى “Large Language Model Meta AI” أو LLAMA باختصار.
تتراوح مجموعة نماذج اللغة LLaMA من 7 مليار إلى 65 مليار معلمة في الحجم. بالمقارنة ، فإن نموذج GPT-3 الخاص بـ OpenAI – النموذج الأساسي وراء ChatGPT – يحتوي على 175 مليار معلمة.
قامت Meta بتدريب نماذج LLaMA الخاصة بها باستخدام مجموعات البيانات المتاحة للجمهور ، مثل Common Crawl و Wikipedia و C4 ، مما يعني أنه يمكن للشركة إطلاق النموذج وأوزان المصدر المفتوح. يعد هذا تطورًا جديدًا مثيرًا في صناعة حيث ، حتى الآن ، احتفظ لاعبو Big Tech في سباق الذكاء الاصطناعي بأقوى تقنيات الذكاء الاصطناعي لأنفسهم.
“على عكس Chinchilla أو PaLM أو GPT-3 ، فإننا نستخدم مجموعات البيانات المتاحة للجمهور فقط ، مما يجعل عملنا متوافقًا مع المصادر المفتوحة وقابل للتكرار ، بينما تعتمد معظم النماذج الحالية على البيانات التي إما أنها غير متاحة للجمهور أو غير موثقة ،” غرد عضو المشروع Guillaume Lample.
اليوم نصدر LLaMA ، 4 نماذج أساس تتراوح من 7B إلى 65B معلمات.
يتفوق LLaMA-13B في الأداء على OPT و GPT-3 175B في معظم المعايير. LLaMA-65B قادر على المنافسة مع Chinchilla 70B و PaLM 540B.
الأوزان لجميع الموديلات مفتوحة ومتاحة على https://t.co/q51f2oPZlE
1 / ن pic.twitter.com/DPyJFBfWEq– Guillaume Lample (GuillaumeLample) 24 فبراير 2023
تطلق Meta على نماذج LLaMA اسم “النماذج الأساسية” ، مما يعني أن الشركة تنوي أن تشكل النماذج أساسًا لنماذج الذكاء الاصطناعي المستقبلية الأكثر دقة المبنية على التكنولوجيا ، على غرار الطريقة التي قامت بها شركة OpenAI ببناء ChatGPT من أساس GPT-3. تأمل الشركة أن يكون LLaMA مفيدًا في أبحاث اللغة الطبيعية وتطبيقات الطاقة المحتملة مثل “الإجابة على الأسئلة ، وفهم اللغة الطبيعية أو فهم القراءة ، وإمكانيات الفهم والقيود المفروضة على نماذج اللغة الحالية.”
في حين أن نموذج LLaMA الأفضل من نوعه (LLaMA-65B ، مع 65 مليار معلمة) ينتقل إلى أخمص القدمين مع عروض مماثلة من مختبرات الذكاء الاصطناعي المنافسة DeepMind و Google و OpenAI ، يمكن القول إن التطوير الأكثر إثارة للاهتمام يأتي من LLaMA -13B ، والذي ، كما ذكرنا سابقًا ، يمكن أن يتفوق على GPT-3 أثناء التشغيل على وحدة معالجة رسومات واحدة. على عكس متطلبات مركز البيانات لمشتقات GPT-3 ، يفتح LLaMA-13B الباب لأداء شبيه بـ ChatGPT على الأجهزة على مستوى المستهلك في المستقبل القريب.
حجم المعلمة مشكلة كبيرة في الذكاء الاصطناعي. المعلمة هي متغير يستخدمه نموذج التعلم الآلي لعمل تنبؤات أو تصنيفات بناءً على بيانات الإدخال. يعد عدد المعلمات في نموذج اللغة عاملاً رئيسيًا في أدائه ، مع نماذج أكبر قادرة بشكل عام على التعامل مع مهام أكثر تعقيدًا وإنتاج مخرجات أكثر تماسكًا. ومع ذلك ، فإن المزيد من المعلمات تشغل مساحة أكبر وتتطلب المزيد من موارد الحوسبة للتشغيل. لذلك ، إذا تمكن النموذج من تحقيق نفس النتائج مثل نموذج آخر بمعلمات أقل ، فإنه يمثل مكسبًا كبيرًا في الكفاءة.
كتب الباحث المستقل في منظمة العفو الدولية سيمون ويليسون في مجلة مؤشر ترابط Mastodon يحلل تأثير نماذج Meta الجديدة للذكاء الاصطناعي.
حاليًا ، يتوفر إصدار مُجرد من LLaMA على GitHub. لتلقي الكود الكامل والأوزان (بيانات التدريب “المكتسبة” في شبكة عصبية) ، توفر Meta نموذجًا حيث يمكن للباحثين المهتمين طلب الوصول. لم تعلن Meta عن خطط لإصدار أوسع للنموذج والأوزان في هذا الوقت.