Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
أخبار التقنية

يمكن للذكاء الاصطناعي الجديد من Microsoft محاكاة صوت أي شخص بثلاث ثوانٍ من الصوت


تكبير / صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لصورة ظلية لشخص ما.

آرس تكنيكا

أعلن باحثو مايكروسوفت يوم الخميس عن نموذج جديد للذكاء الاصطناعي لتحويل النص إلى كلام يسمى VALL-E يمكنه محاكاة صوت الشخص عن كثب عند إعطائه عينة صوتية مدتها ثلاث ثوان. بمجرد أن يتعلم صوتًا معينًا ، يمكن لـ VALL-E توليف صوت ذلك الشخص الذي يقول أي شيء – والقيام بذلك بطريقة تحاول الحفاظ على نغمة المتحدث العاطفية.

يتوقع منشئوه أنه يمكن استخدام VALL-E لتطبيقات تحويل النص إلى كلام عالية الجودة ، وتحرير الكلام حيث يمكن تحرير تسجيل شخص ما وتغييره من نص نصي (مما يجعلهم يقولون شيئًا لم يفعلوه في الأصل) ، وإنشاء محتوى صوتي عند دمجه مع نماذج ذكاء اصطناعي أخرى مثل GPT-3.

تطلق Microsoft على VALL-E “نموذج لغة ترميز عصبي” ، وهي مبنية على تقنية تسمى EnCodec ، والتي أعلنت Meta عنها في أكتوبر 2022. على عكس طرق تحويل النص إلى كلام الأخرى التي تصنع الكلام عن طريق معالجة أشكال الموجة ، فإن VALL-E تنشئ رموز ترميز الصوت المنفصلة من المطالبات النصية والصوتية. إنه يحلل بشكل أساسي كيف يبدو الشخص ، ويقسم تلك المعلومات إلى مكونات منفصلة (تسمى “الرموز”) بفضل EnCodec ، ويستخدم بيانات التدريب لمطابقة ما “يعرفه” حول كيف سيبدو هذا الصوت إذا تحدث بعبارات أخرى خارج الثلاثة العينة الثانية. أو كما تضعها Microsoft في ورقة VALL-E:

لتجميع الكلام المخصص (على سبيل المثال ، TTS بدون طلقة) ، يقوم VALL-E بإنشاء الرموز الصوتية المقابلة المشروطة بالرموز الصوتية للتسجيل المسجل لمدة 3 ثوانٍ والموجه الصوتي ، والتي تقيد السماعة ومعلومات المحتوى على التوالي. أخيرًا ، تُستخدم الرموز الصوتية التي تم إنشاؤها لتجميع الشكل الموجي النهائي مع وحدة فك الترميز العصبية المقابلة.

قامت Microsoft بتدريب قدرات VALL-E على تركيب الكلام في مكتبة صوتية ، تم تجميعها بواسطة Meta ، تسمى LibriLight. يحتوي على 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث ، تم سحبها في الغالب من الكتب الصوتية ذات المجال العام LibriVox. لكي تحقق VALL-E نتيجة جيدة ، يجب أن يتطابق الصوت في العينة التي تبلغ مدتها ثلاث ثوانٍ مع صوت في بيانات التدريب.

على موقع مثال VALL-E على الويب ، تقدم Microsoft العشرات من الأمثلة الصوتية لنموذج AI قيد التشغيل. من بين العينات ، “موجه مكبر الصوت” هو صوت مدته ثلاث ثوان يتم توفيره لـ VALL-E والذي يجب تقليده. “الحقيقة الأساسية” هي تسجيل موجود مسبقًا لنفس المتحدث يقول عبارة معينة لأغراض المقارنة (نوعًا ما يشبه “التحكم” في التجربة). “خط الأساس” هو مثال على التوليف المقدم من خلال طريقة تركيب النص إلى كلام التقليدية ، وعينة “VALL-E” هي ناتج من نموذج VALL-E.

رسم تخطيطي لـ VALL-E مقدم من باحثي Microsoft.
تكبير / رسم تخطيطي لـ VALL-E مقدم من باحثي Microsoft.

مايكروسوفت

أثناء استخدام VALL-E لتوليد هذه النتائج ، قام الباحثون فقط بتغذية عينة “Speaker Prompt” التي تبلغ مدتها ثلاث ثوانٍ وسلسلة نصية (ما أرادوا أن يقوله الصوت) في VALL-E. لذا قارن بين عينة “Ground Truth” وعينة “VALL-E”. في بعض الحالات ، تكون العيّنتان متقاربتين جدًا. تبدو بعض نتائج VALL-E ناتجة عن الكمبيوتر ، لكن من المحتمل أن يخطئ البعض الآخر في كلام الإنسان ، وهذا هو هدف النموذج.

بالإضافة إلى الحفاظ على جرس المتحدث الصوتي والنبرة العاطفية ، يمكن لـ VALL-E أيضًا محاكاة “البيئة الصوتية” لعينة الصوت. على سبيل المثال ، إذا جاءت العينة من مكالمة هاتفية ، فإن إخراج الصوت سيحاكي الخصائص الصوتية وخصائص التردد لمكالمة هاتفية في إخراجها المركب (هذه طريقة رائعة للقول أنها ستبدو مثل مكالمة هاتفية أيضًا). وتوضح عينات Microsoft (في قسم “توليف التنوع”) أن VALL-E يمكن أن تولد اختلافات في نغمة الصوت عن طريق تغيير البذور العشوائية المستخدمة في عملية التوليد.

ربما يرجع الفضل في ذلك إلى قدرة VALL-E على تأجيج الأذى والخداع ، لم تقدم Microsoft رمز VALL-E للآخرين لتجربته ، لذلك لم نتمكن من اختبار قدرات VALL-E. يبدو أن الباحثين مدركون للضرر الاجتماعي المحتمل الذي يمكن أن تحدثه هذه التكنولوجيا. لاستنتاج الورقة ، كتبوا:

نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد ينطوي على مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر ، من الممكن بناء نموذج كشف للتمييز بين ما إذا كان مقطع الصوت قد تم تصنيعه بواسطة VALL-E. سنضع أيضًا مبادئ Microsoft AI موضع التنفيذ عند مواصلة تطوير النماذج. “

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

did kelly clarkson use gummies for weight loss kelly clarkson weight loss with gummies pro burn keto gummies kelly clarkson is kelly clarkson selling keto gummies kelly clarkson acv keto gummies kelly clarkson vitalmax keto on keto kelly clarkson how did kelly clarkson lose her weight how did kelly clarkson lose the weight did kelly clarkson lose weight on ozempic did kelly clarkson lose weight on gummies how did kelly clarkson lose weight october 2024 howd kelly clarkson lose weight juan rivera keto gummies luxe keto gummies keto trim max gummies reviews 6 pack keto gummies reviews keto gummies reviews for weight loss keto burn bhb gummies side effects premium blast keto acv gummies scam biolife cbd gummies where to buy natures one cbd gummies where to buy erectafil cbd gummies where to buy gummy bears with cbd oil where to buy where to buy vitality cbd gummies where to buy green vibe cbd gummies cbd gummies where i can buy where can i buy truman cbd gummies where to buy dr jennifer ashton cbd gummies 55 year old male body muscle enhancement bodybuilding c 30 male enhancement pills is male enhancement only for erectile dysfunction new penis enhancement the best penis enhancement penis enhancement sleeve elite male cbd gummies do truth cbd gummies really work harmony leaf cbd gummies scam performance cbd gummies scam truman gummies reviews