أخبار التقنية

يولد الذكاء الاصطناعي في Riffusion الموسيقى من النص باستخدام الموجات الصوتية المرئية


تكبير / صورة مولدة بالذكاء الاصطناعي لنوتات موسيقية تنفجر من شاشة الكمبيوتر.

آرس تكنيكا

يوم الخميس ، أصدر زوجان من هواة التكنولوجيا Riffusion ، وهو نموذج ذكاء اصطناعي يولد الموسيقى من المطالبات النصية عن طريق إنشاء تمثيل مرئي للصوت وتحويله إلى صوت للتشغيل. يستخدم إصدارًا دقيقًا من نموذج توليف الصورة Stable Diffusion 1.5 ، ويطبق الانتشار البصري الكامن على معالجة الصوت بطريقة جديدة.

تم إنشاؤه كمشروع هواية بواسطة Seth Forsgren و Hayk Martiros ، يعمل Riffusion عن طريق إنشاء مخططات صوتية تخزن الصوت في صورة ثنائية الأبعاد. في مخطط الموجات فوق الصوتية ، يمثل المحور X الوقت (الترتيب الذي يتم تشغيل الترددات به ، من اليسار إلى اليمين) ، ويمثل المحور Y تردد الأصوات. وفي الوقت نفسه ، يمثل لون كل بكسل في الصورة سعة الصوت في تلك اللحظة المعينة من الوقت.

نظرًا لأن مخطط الموجات فوق الصوتية هو نوع من الصور ، يمكن لـ Stable Diffusion معالجته. قام Forsgren و Martiros بتدريب نموذج انتشار ثابت مخصص مع أمثلة للموجات الصوتية المرتبطة بأوصاف الأصوات أو الأنواع الموسيقية التي يمثلونها. من خلال هذه المعرفة ، يمكن لـ Riffusion إنشاء موسيقى جديدة على الفور بناءً على المطالبات النصية التي تصف نوع الموسيقى أو الصوت الذي تريد سماعه ، مثل “موسيقى الجاز” أو “موسيقى الروك” أو حتى الكتابة على لوحة المفاتيح.

بعد إنشاء صورة الموجات فوق الصوتية ، يستخدم Riffusion Torchaudio لتغيير مخطط الموجات الصوتية إلى صوت ، وتشغيله كصوت.

يمثل مخطط الموجات الصوتية الوقت والتردد والسعة في صورة ثنائية الأبعاد.
تكبير / يمثل مخطط الموجات الصوتية الوقت والتردد والسعة في صورة ثنائية الأبعاد.

“هذا هو نموذج v1.5 Stable Diffusion بدون تعديلات ، فقط تم ضبطه بدقة على صور مخططات الطيف المقترنة بالنص ،” كتب منشئو Riffusion في صفحة التفسير الخاصة به. “يمكن أن تولد اختلافات لا حصر لها للموجه عن طريق تنويع البذور. تعمل جميع واجهات مستخدم الويب وتقنيات مثل img2img و inpainting والمطالبات السلبية والاستيفاء خارج الصندوق.”

يمكن لزوار موقع Riffusion تجربة نموذج الذكاء الاصطناعي بفضل تطبيق ويب تفاعلي يقوم بإنشاء مخططات صوتية مُقحمة (مُدمجة معًا بسلاسة للتشغيل دون انقطاع) في الوقت الفعلي أثناء تصور المخطط الطيفي باستمرار على الجانب الأيسر من الصفحة.

لقطة شاشة لموقع Riffusion ، والتي تتيح لك كتابة المطالبات وسماع الموجات الصوتية الناتجة.
تكبير / لقطة شاشة لموقع Riffusion ، والتي تتيح لك كتابة المطالبات وسماع الموجات الصوتية الناتجة.

يمكن أن يدمج الأنماط أيضًا. على سبيل المثال ، تجلب الكتابة في “موسيقى الجاز الاستوائية الناعمة” عناصر من أنواع مختلفة للحصول على نتيجة جديدة ، مما يشجع على التجريب عن طريق مزج الأنماط.

بالطبع ، Riffusion ليس أول مولد موسيقى يعمل بالذكاء الاصطناعي. في وقت سابق من هذا العام ، أصدرت Harmonai Dance Diffusion ، وهو نموذج موسيقي توليدي يعمل بالذكاء الاصطناعي. Jukebox من OpenAI ، الذي تم الإعلان عنه في عام 2020 ، يولد أيضًا موسيقى جديدة بشبكة عصبية. وتقوم مواقع الويب مثل Soundraw بإنشاء موسيقى بدون توقف أثناء التنقل.

بالمقارنة مع تلك الجهود الموسيقية المبسطة بتقنية الذكاء الاصطناعي ، يبدو Riffusion أشبه بمشروع الهواية الذي هو عليه. تتراوح الموسيقى التي يولدها من مثيرة للاهتمام إلى غير مفهومة ، لكنها تظل تطبيقًا ملحوظًا لتقنية الانتشار الكامن التي تعالج الصوت في الفضاء المرئي.

تتوفر نقطة تفتيش وكود نموذج Riffusion على GitHub.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى