يوم الجمعة ، قدم مكتب جوزيف سافيري للمحاماة الفيدرالية الأمريكية دعاوى جماعية نيابة عن سارة سيلفرمان ومؤلفين آخرين ضد OpenAI و Meta ، متهمين الشركات باستخدام مواد محمية بحقوق الطبع والنشر بشكل غير قانوني لتدريب نماذج لغة الذكاء الاصطناعي مثل الدردشة و LLaMA.
ومن بين المؤلفين الآخرين الممثلين كريستوفر جولدن وريتشارد كادري ، وضمت دعوى قضائية جماعية سابقة رفعتها نفس الشركة في 28 يونيو المؤلفين بول تريمبلاي ومنى عوض. تدعي كل دعوى انتهاكات لقانون حقوق النشر الرقمية للألفية ، وقوانين المنافسة غير العادلة ، والإهمال.
ليس غريباً على مكتب جوزيف سافيري للمحاماة اتخاذ إجراءات قانونية صديقة للصحافة ضد الذكاء الاصطناعي التوليدي. في نوفمبر 2022 ، نفس الشركة رفعت دعوى قضائية عبر GitHub Copilot بسبب انتهاكات حقوق النشر المزعومة. في يناير 2023 ، نفس المجموعة القانونية كرر تلك الصيغة من خلال دعوى قضائية جماعية ضد Stability AI و Midjourney و DeviantArt على مولدات الصور AI. وفقًا للمحامي ماثيو باتريك ، فإن دعوى جيثب في طريقها حاليًا إلى المحاكمة. المناورات الإجرائية في قضية Stable Diffusion لا تزال جارية مع لا توجد نتيجة واضحة حتى الآن.
في بيان صحفي الشهر الماضي ، وصفت شركة المحاماة ChatGPT و LLaMA بأنهم “منتحلون ذوو قوة صناعية ينتهكون حقوق مؤلفي الكتاب”. يتواصل المؤلفون والناشرون مع مكتب المحاماة منذ مارس 2023 ، كما كتب المحاميان جوزيف سافيري وماثيو باتريك ، لأن المؤلفين “قلقون” بشأن القدرة الخارقة لأدوات الذكاء الاصطناعي هذه على إنشاء نص مشابه للنص الموجود في المواد النصية المحمية بحقوق الطبع والنشر ، بما في ذلك آلاف الكتب “.
تم رفع الدعاوى القضائية الأخيرة من Silverman و Golden و Kadrey في محكمة محلية أمريكية في سان فرانسيسكو. طالب المؤلفون بإجراء محاكمات أمام هيئة محلفين في كل حالة ويسعون للحصول على تعويض دائم قد يجبر Meta و OpenAI على إجراء تغييرات على أدوات الذكاء الاصطناعي الخاصة بهم.
ورفض ميتا طلب آرس للتعليق. ولم ترد شركة أوبن إيه آي على الفور على طلب آرس للتعليق.
أرسل متحدث باسم شركة Saveri Law Firm بيانًا إلى Ars ، قائلًا: “إذا تم السماح باستمرار هذا السلوك المزعوم ، فستحل هذه النماذج في النهاية محل المؤلفين الذين تعمل قوتهم المسروقة مع منتجات الذكاء الاصطناعي هذه والذين يتنافسون معهم. الكفاح من أجل الحفاظ على حقوق الملكية لجميع الفنانين والمبدعين الآخرين “.
متهم باستخدام مجموعات بيانات “غير قانونية بشكل صارخ”
لم تكشف Meta أو OpenAI بشكل كامل عما هو موجود في مجموعات البيانات المستخدمة لتدريب LLaMA و ChatGPT. لكن المحامين الذين رفعوا دعوى ضد المؤلفين يقولون إنهم استنتجوا مصادر البيانات المحتملة من القرائن في البيانات والأوراق التي أصدرتها الشركات أو الباحثون ذوو الصلة. اتهم المؤلفون كلاً من OpenAI و Meta باستخدام مجموعات بيانات تدريبية تحتوي على مواد محمية بحقوق الطبع والنشر تم توزيعها دون موافقة المؤلفين أو الناشرين ، بما في ذلك عن طريق تنزيل الأعمال من بعض أكبر مواقع قرصنة الكتب الإلكترونية.
في دعوى OpenAI ، المؤلفين المزعومين استنادًا إلى إفصاحات OpenAI ، يبدو أن ChatGPT قد تم تدريبهم على 294000 كتاب يُزعم تنزيلها من مواقع “مكتبة الظل” الشهيرة مثل Library Genesis (المعروفة أيضًا باسم LibGen) و Z-Library (المعروفة أيضًا باسم Bok) و Sci- Hub ، والمكتبة “. كشفت Meta أن LLaMA قد تم تدريبها على جزء من مجموعة بيانات تسمى ThePile ، والتي تشمل الدعوى الأخرى المزعومة “جميع Bibliotik” وتبلغ 196640 كتابًا.
علاوة على الوصول المزعوم إلى الأعمال المحمية بحقوق الطبع والنشر من خلال مكتبات الظل ، فإن OpenAI متهم أيضًا باستخدام “مجموعة بيانات مثيرة للجدل” تسمى BookCorpus.
قالت دعوى BookCorpus ، التي رفعتها شركة OpenAI ، “تم تجميعها في عام 2015 من قبل فريق من باحثي الذكاء الاصطناعي لغرض تدريب النماذج اللغوية.” يُزعم أن فريق البحث هذا “قام بنسخ الكتب من موقع على شبكة الإنترنت يسمى Smashwords يستضيف الروايات المنشورة ذاتيًا ، والمتاحة للقراء مجانًا”. ومع ذلك ، لا تزال هذه الروايات تخضع لحقوق النشر ويُزعم أنها “نُسخت في مجموعة بيانات BookCorpus دون موافقة أو اعتماد أو تعويض للمؤلفين”.
لم يتمكن Ars من الوصول على الفور إلى باحثي BookCorpus أو Smashwords للتعليق. [Update: Dan Wood, COO of Draft2Digital—which acquired Smashwords in March 2022—told Ars that the Smashwords “store site lists close to 800,000 titles for sale,” with “about 100,000” currently priced at free.
“Typically, the free book will be the first of a series,” Wood said. “Some authors will keep these titles free indefinitely, and some will run limited promotions where they offer the book for free. From what we understand of the BookCorpus data set, approximately 7,185 unique titles that were priced free at the time were scraped without the knowledge or permission of Smashwords or its authors.” It wasn’t until March 2023 when Draft2Digital “first became aware of the scraped books being used for commercial purposes and redistributed, which is a clear violation of Smashwords’ terms of service,” Wood said.
“Every author, whether they have an internationally recognizable name or have just published their first book, deserve to have their copyright protected,” Wood told Ars. “They also should have the confidence that the publishing service they entrust their work with will protect it. To that end, we are working diligently with our lawyers to fully understand the issues—including who took the data and where it was distributed—and to devise a strategy to ensure our authors’ rights are enforced. We are watching the current cases being brought against OpenAI and Meta very closely.”]