يولد الذكاء الاصطناعي في Riffusion الموسيقى من النص باستخدام الموجات الصوتية المرئية

تكبير / صورة مولدة بالذكاء الاصطناعي لنوتات موسيقية تنفجر من شاشة الكمبيوتر.

آرس تكنيكا

يوم الخميس ، أصدر زوجان من هواة التكنولوجيا Riffusion ، وهو نموذج ذكاء اصطناعي يولد الموسيقى من المطالبات النصية عن طريق إنشاء تمثيل مرئي للصوت وتحويله إلى صوت للتشغيل. يستخدم إصدارًا دقيقًا من نموذج توليف الصورة Stable Diffusion 1.5 ، ويطبق الانتشار البصري الكامن على معالجة الصوت بطريقة جديدة.

تم إنشاؤه كمشروع هواية بواسطة Seth Forsgren و Hayk Martiros ، يعمل Riffusion عن طريق إنشاء مخططات صوتية تخزن الصوت في صورة ثنائية الأبعاد. في مخطط الموجات فوق الصوتية ، يمثل المحور X الوقت (الترتيب الذي يتم تشغيل الترددات به ، من اليسار إلى اليمين) ، ويمثل المحور Y تردد الأصوات. وفي الوقت نفسه ، يمثل لون كل بكسل في الصورة سعة الصوت في تلك اللحظة المعينة من الوقت.

نظرًا لأن مخطط الموجات فوق الصوتية هو نوع من الصور ، يمكن لـ Stable Diffusion معالجته. قام Forsgren و Martiros بتدريب نموذج انتشار ثابت مخصص مع أمثلة للموجات الصوتية المرتبطة بأوصاف الأصوات أو الأنواع الموسيقية التي يمثلونها. من خلال هذه المعرفة ، يمكن لـ Riffusion إنشاء موسيقى جديدة على الفور بناءً على المطالبات النصية التي تصف نوع الموسيقى أو الصوت الذي تريد سماعه ، مثل “موسيقى الجاز” أو “موسيقى الروك” أو حتى الكتابة على لوحة المفاتيح.

بعد إنشاء صورة الموجات فوق الصوتية ، يستخدم Riffusion Torchaudio لتغيير مخطط الموجات الصوتية إلى صوت ، وتشغيله كصوت.

تكبير / يمثل مخطط الموجات الصوتية الوقت والتردد والسعة في صورة ثنائية الأبعاد.

“هذا هو نموذج v1.5 Stable Diffusion بدون تعديلات ، فقط تم ضبطه بدقة على صور مخططات الطيف المقترنة بالنص ،” كتب منشئو Riffusion في صفحة التفسير الخاصة به. “يمكن أن تولد اختلافات لا حصر لها للموجه عن طريق تنويع البذور. تعمل جميع واجهات مستخدم الويب وتقنيات مثل img2img و inpainting والمطالبات السلبية والاستيفاء خارج الصندوق.”

يمكن لزوار موقع Riffusion تجربة نموذج الذكاء الاصطناعي بفضل تطبيق ويب تفاعلي يقوم بإنشاء مخططات صوتية مُقحمة (مُدمجة معًا بسلاسة للتشغيل دون انقطاع) في الوقت الفعلي أثناء تصور المخطط الطيفي باستمرار على الجانب الأيسر من الصفحة.

تكبير / لقطة شاشة لموقع Riffusion ، والتي تتيح لك كتابة المطالبات وسماع الموجات الصوتية الناتجة.

يمكن أن يدمج الأنماط أيضًا. على سبيل المثال ، تجلب الكتابة في “موسيقى الجاز الاستوائية الناعمة” عناصر من أنواع مختلفة للحصول على نتيجة جديدة ، مما يشجع على التجريب عن طريق مزج الأنماط.

بالطبع ، Riffusion ليس أول مولد موسيقى يعمل بالذكاء الاصطناعي. في وقت سابق من هذا العام ، أصدرت Harmonai Dance Diffusion ، وهو نموذج موسيقي توليدي يعمل بالذكاء الاصطناعي. Jukebox من OpenAI ، الذي تم الإعلان عنه في عام 2020 ، يولد أيضًا موسيقى جديدة بشبكة عصبية. وتقوم مواقع الويب مثل Soundraw بإنشاء موسيقى بدون توقف أثناء التنقل.

بالمقارنة مع تلك الجهود الموسيقية المبسطة بتقنية الذكاء الاصطناعي ، يبدو Riffusion أشبه بمشروع الهواية الذي هو عليه. تتراوح الموسيقى التي يولدها من مثيرة للاهتمام إلى غير مفهومة ، لكنها تظل تطبيقًا ملحوظًا لتقنية الانتشار الكامن التي تعالج الصوت في الفضاء المرئي.

تتوفر نقطة تفتيش وكود نموذج Riffusion على GitHub.

مرتبط

اكتشاف المزيد من عرب نيوز للتقنية

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

يولد الذكاء الاصطناعي في Riffusion الموسيقى من النص باستخدام الموجات الصوتية المرئية

مرتبط

اكتشاف المزيد من عرب نيوز للتقنية

Read Next

شركة ترميم فلل بالرياض عوازل الصفرات

يعمل خريجو SpaceX على جمع أول صندوق ضخم للتكنولوجيا العميقة بقيمة 550 مليون دولار

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

شركة ترميم فلل بالرياض عوازل الصفرات

يعمل خريجو SpaceX على جمع أول صندوق ضخم للتكنولوجيا العميقة بقيمة 550 مليون دولار

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

اترك تعليقاً إلغاء الرد

,افضل ميكب ارتست لوضع ميك اب خفيف. هل تعرفينها؟

أبسط طريقة لحرق ويندوز10 على فلاشة الـusb

توفير المال على إصلاحات الجهاز مع التحقق من الضمان

روابط ميجا mega ,روابط ميقا مجانية ,معنى روابط ميقا mega.nz

TikTok: منصة صينية تتحدى X و Thread بمشاركات نصية فقط

روابط نصية AA50

مرتبط

اكتشاف المزيد من عرب نيوز للتقنية

Read Next

شركة ترميم فلل بالرياض عوازل الصفرات

يعمل خريجو SpaceX على جمع أول صندوق ضخم للتكنولوجيا العميقة بقيمة 550 مليون دولار

مراهق يفوز بمنحة دراسية لجهاز الكشف عن الجلوكوما

قد يستغرق إصلاح خطأ كسر التشفير وتسريب كلمة المرور في العديد من وحدات المعالجة المركزية AMD شهورًا

أجهزة كمبيوتر نادرة من Apple للبيع بسعر 50،000 دولار

بعد فوضى FTX ، هل تتراجع العملة المشفرة وتخرج بعد عام 2022؟

تعرض أمازون الخطط النبيلة للتسليم عن طريق الطائرة بدون طيار

Related Articles

اترك تعليقاً إلغاء الرد

اكتشاف المزيد من عرب نيوز للتقنية