ولكن إذا لم تكن على دراية وثيقة بصناعة الذكاء الاصطناعي وحقوق النشر ، فقد تتساءل: لماذا تنفق الشركة ملايين الدولارات على الكتب لتدميرها؟ وراء هذه المناورات القانونية الغريبة ، يكمن السائق الأساسي: الجوع الذي لا يشبع في صناعة الذكاء الاصطناعي للنص عالي الجودة.
سباق بيانات التدريب عالية الجودة
لفهم سبب رغبة الإنسان في مسح الملايين من الكتب ، من المهم أن نعرف أن باحثو الذكاء الاصطناعى يبنون نماذج لغة كبيرة (LLMs) مثل تلك التي تعمل بالدردشة والكلود عن طريق تغذية مليارات الكلمات في شبكة عصبية. أثناء التدريب ، يقوم نظام الذكاء الاصطناعي بمعالجة النص مرارًا وتكرارًا ، وبناء العلاقات الإحصائية بين الكلمات والمفاهيم في هذه العملية.
تؤثر جودة بيانات التدريب التي تغذيها الشبكة العصبية بشكل مباشر على قدرات نموذج الذكاء الاصطناعى الناتجة. تميل النماذج المدربة على الكتب والمقالات التي يتم تحريرها جيدًا إلى إنتاج استجابات أكثر تماسكًا ودقيقة من تلك المدربة على نص جودة منخفضة مثل تعليقات YouTube العشوائية.
يتحكم الناشرون بشكل قانوني في المحتوى الذي تريده شركات الذكاء الاصطناعي بشكل يائس ، لكن شركات الذكاء الاصطناعى لا ترغب دائمًا في التفاوض على ترخيص. قدمت عقيدة البيئة الأولى الحل البديل: بمجرد شراء كتاب فعلي ، يمكنك أن تفعل ما تريد بهذه النسخة-بما في ذلك تدميره. وهذا يعني شراء الكتب المادية عرضت حلًا قانونيًا.
ومع ذلك ، فإن شراء الأشياء مكلف ، حتى لو كان ذلك قانونيًا. مثل العديد من شركات الذكاء الاصطناعى قبل ذلك ، اختارت الأنثروبري في البداية المسار السريع والسهل. في السعي للحصول على بيانات تدريب عالية الجودة ، اختارت المحكمة ، اختارت الأنثروبور أولاً جمع إصدارات رقمية من الكتب المقرصنة لتجنب ما أطلق عليه الرئيس التنفيذي Dario Amodei “Legal/Practice/Business Rlog”-مفاوضات الترخيص المعقدة مع الناشرين. ولكن بحلول عام 2024 ، أصبحت الأنثروبور “ليست هكذا حول” استخدام الكتب الإلكترونية المقرصنة “لأسباب قانونية” وتحتاج إلى مصدر أكثر أمانًا.