أعلن باحثون من Google يوم الخميس عن نموذج جديد للذكاء الاصطناعي يسمى MusicLM يمكنه إنشاء صوت موسيقي 24 كيلوهرتز من أوصاف نصية ، مثل “لحن كمان مهدئ مدعوم بفرقة غيتار مشوهة”. يمكنه أيضًا تحويل اللحن الخفيف إلى نمط موسيقي مختلف وإخراج الموسيقى لعدة دقائق.
تستخدم MusicLM نموذجًا للذكاء الاصطناعي مدربًا على ما تسميه Google “أ مجموعة بيانات كبيرة من الموسيقى غير المصنّفة “، جنبًا إلى جنب مع تسميات توضيحية من MusicCaps ، مجموعة بيانات جديدة تتكون من 5،521 زوجًا من أزواج النصوص الموسيقية. تحصل MusicCaps على أوصافها النصية من خبراء بشريين ومقاطع صوتية مطابقة لها من مجموعة الصوت من Google ، وهي مجموعة تضم أكثر من مليوني مقطع صوتي مدته 10 ثوانٍ مأخوذة من مقاطع فيديو YouTube.
بشكل عام ، تعمل MusicLM في جزأين رئيسيين: أولاً ، تأخذ سلسلة من الرموز الصوتية (أجزاء من الصوت) وترسمها إلى الرموز الدلالية (الكلمات التي تمثل المعنى) في التعليقات للتدريب. يتلقى الجزء الثاني تعليقات المستخدم و / أو إدخال الصوت ويقوم بإنشاء رموز صوتية (أجزاء من الصوت تشكل إخراج الأغنية الناتج). يعتمد النظام على نموذج سابق للذكاء الاصطناعي يسمى AudioLM (قدمته Google في سبتمبر) إلى جانب مكونات أخرى مثل SoundStream و MuLan.
تدعي Google أن MusicLM يتفوق على مولدات موسيقى AI السابقة في جودة الصوت والالتزام بالأوصاف النصية. في صفحة العرض التوضيحي لـ MusicLM ، تقدم Google العديد من الأمثلة على نموذج الذكاء الاصطناعي أثناء العمل ، حيث يتم إنشاء الصوت من “التسميات التوضيحية الغنية” التي تصف إحساس الموسيقى ، وحتى الغناء (التي هي حتى الآن رطانة). فيما يلي مثال على شرح غني يقدمونه:
إيقاع بطيء ، أغنية ريغي بقيادة الجهير والطبول. الغيتار الكهربائي المتواصل. نبرة عالية مع نغمات رنين. الغناء مرتاح مع شعور بالراحة ، معبرة للغاية.
تعرض Google أيضًا “الجيل الطويل” من MusicLM (إنشاء مقاطع موسيقية مدتها خمس دقائق من موجه بسيط) ، و “وضع القصة” (الذي يأخذ سلسلة من المطالبات النصية ويحولها إلى سلسلة تتحول من الألحان الموسيقية) ، “النص واللحن “التكييف” (الذي يأخذ صوتًا بشريًا أو صفيرًا لإدخال الصوت وتغييره لمطابقة النمط المحدد في موجه) ، وتوليد الموسيقى التي تتناسب مع مزاج التسميات التوضيحية للصور.
في أسفل الصفحة النموذجية ، يتعمق Google في قدرة MusicLM على إعادة إنشاء أدوات معينة (على سبيل المثال ، الفلوت ، والتشيلو ، والجيتار) ، وأنواع موسيقية مختلفة ، ومستويات تجربة موسيقية مختلفة ، وأماكن (هروب من السجن ، وصالة ألعاب رياضية) ، وفترات زمنية (نادي في الخمسينيات) والمزيد.
الموسيقى المولدة بالذكاء الاصطناعي ليست فكرة جديدة بأي حال من الأحوال ، ولكن طرق إنشاء الموسيقى بالذكاء الاصطناعي في العقود السابقة غالبًا ما خلقت تدوينًا موسيقيًا تم تشغيله لاحقًا يدويًا أو من خلال جهاز المزج ، في حين أن MusicLM يولد ترددات الصوت الخام للموسيقى. أيضًا ، في ديسمبر ، قمنا بتغطية Riffusion ، وهو مشروع هواية للذكاء الاصطناعي يمكنه بالمثل إنشاء موسيقى من أوصاف نصية ، ولكن ليس بدقة عالية. تشير Google إلى Riffusion في ورقتها الأكاديمية MusicLM ، قائلة إن MusicLM تتفوق عليها من حيث الجودة.
في ورقة MusicLM ، يحدد منشئوها التأثيرات المحتملة لـ MusicLM ، بما في ذلك “التملك غير المشروع المحتمل للمحتوى الإبداعي” (على سبيل المثال ، قضايا حقوق النشر) ، والتحيزات المحتملة للثقافات الممثلة تمثيلاً ناقصًا في بيانات التدريب ، وقضايا التخصيص الثقافي المحتملة. نتيجة لذلك ، تؤكد Google على الحاجة إلى مزيد من العمل لمعالجة هذه المخاطر ، وهم يحجمون عن الكود: “ليس لدينا خطط لإصدار نماذج في هذه المرحلة”.
يتطلع باحثو Google بالفعل نحو التحسينات المستقبلية: “قد يركز العمل المستقبلي على إنشاء كلمات الأغاني ، جنبًا إلى جنب مع تحسين تكييف النص وجودة الصوت. وهناك جانب آخر يتمثل في نمذجة بنية الأغنية عالية المستوى مثل المقدمة والشعر والجوقة. الموسيقى بمعدل عينة أعلى هدف إضافي “.
ربما لا يكون من المبالغة أن نقترح أن الباحثين في الذكاء الاصطناعي سيستمرون في تحسين تكنولوجيا توليد الموسيقى حتى يتمكن أي شخص من إنشاء موسيقى بجودة الاستوديو بأي أسلوب فقط من خلال وصفها – على الرغم من أنه لا يمكن لأحد التنبؤ بالضبط متى سيتم تحقيق هذا الهدف أو كيف . بالضبط سيؤثر على صناعة الموسيقى. ترقبوا المزيد من التطورات.
اكتشاف المزيد من عرب نيوز للتقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.