أعلن باحثو مايكروسوفت يوم الخميس عن نموذج جديد للذكاء الاصطناعي لتحويل النص إلى كلام يسمى VALL-E يمكنه محاكاة صوت الشخص عن كثب عند إعطائه عينة صوتية مدتها ثلاث ثوان. بمجرد أن يتعلم صوتًا معينًا ، يمكن لـ VALL-E توليف صوت ذلك الشخص الذي يقول أي شيء – والقيام بذلك بطريقة تحاول الحفاظ على نغمة المتحدث العاطفية.
يتوقع منشئوه أنه يمكن استخدام VALL-E لتطبيقات تحويل النص إلى كلام عالية الجودة ، وتحرير الكلام حيث يمكن تحرير تسجيل شخص ما وتغييره من نص نصي (مما يجعلهم يقولون شيئًا لم يفعلوه في الأصل) ، وإنشاء محتوى صوتي عند دمجه مع نماذج ذكاء اصطناعي أخرى مثل GPT-3.
تطلق Microsoft على VALL-E “نموذج لغة ترميز عصبي” ، وهي مبنية على تقنية تسمى EnCodec ، والتي أعلنت Meta عنها في أكتوبر 2022. على عكس طرق تحويل النص إلى كلام الأخرى التي تصنع الكلام عن طريق معالجة أشكال الموجة ، فإن VALL-E تنشئ رموز ترميز الصوت المنفصلة من المطالبات النصية والصوتية. إنه يحلل بشكل أساسي كيف يبدو الشخص ، ويقسم تلك المعلومات إلى مكونات منفصلة (تسمى “الرموز”) بفضل EnCodec ، ويستخدم بيانات التدريب لمطابقة ما “يعرفه” حول كيف سيبدو هذا الصوت إذا تحدث بعبارات أخرى خارج الثلاثة العينة الثانية. أو كما تضعها Microsoft في ورقة VALL-E:
لتجميع الكلام المخصص (على سبيل المثال ، TTS بدون طلقة) ، يقوم VALL-E بإنشاء الرموز الصوتية المقابلة المشروطة بالرموز الصوتية للتسجيل المسجل لمدة 3 ثوانٍ والموجه الصوتي ، والتي تقيد السماعة ومعلومات المحتوى على التوالي. أخيرًا ، تُستخدم الرموز الصوتية التي تم إنشاؤها لتجميع الشكل الموجي النهائي مع وحدة فك الترميز العصبية المقابلة.
قامت Microsoft بتدريب قدرات VALL-E على تركيب الكلام في مكتبة صوتية ، تم تجميعها بواسطة Meta ، تسمى LibriLight. يحتوي على 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث ، تم سحبها في الغالب من الكتب الصوتية ذات المجال العام LibriVox. لكي تحقق VALL-E نتيجة جيدة ، يجب أن يتطابق الصوت في العينة التي تبلغ مدتها ثلاث ثوانٍ مع صوت في بيانات التدريب.
على موقع مثال VALL-E على الويب ، تقدم Microsoft العشرات من الأمثلة الصوتية لنموذج AI قيد التشغيل. من بين العينات ، “موجه مكبر الصوت” هو صوت مدته ثلاث ثوان يتم توفيره لـ VALL-E والذي يجب تقليده. “الحقيقة الأساسية” هي تسجيل موجود مسبقًا لنفس المتحدث يقول عبارة معينة لأغراض المقارنة (نوعًا ما يشبه “التحكم” في التجربة). “خط الأساس” هو مثال على التوليف المقدم من خلال طريقة تركيب النص إلى كلام التقليدية ، وعينة “VALL-E” هي ناتج من نموذج VALL-E.
أثناء استخدام VALL-E لتوليد هذه النتائج ، قام الباحثون فقط بتغذية عينة “Speaker Prompt” التي تبلغ مدتها ثلاث ثوانٍ وسلسلة نصية (ما أرادوا أن يقوله الصوت) في VALL-E. لذا قارن بين عينة “Ground Truth” وعينة “VALL-E”. في بعض الحالات ، تكون العيّنتان متقاربتين جدًا. تبدو بعض نتائج VALL-E ناتجة عن الكمبيوتر ، لكن من المحتمل أن يخطئ البعض الآخر في كلام الإنسان ، وهذا هو هدف النموذج.
بالإضافة إلى الحفاظ على جرس المتحدث الصوتي والنبرة العاطفية ، يمكن لـ VALL-E أيضًا محاكاة “البيئة الصوتية” لعينة الصوت. على سبيل المثال ، إذا جاءت العينة من مكالمة هاتفية ، فإن إخراج الصوت سيحاكي الخصائص الصوتية وخصائص التردد لمكالمة هاتفية في إخراجها المركب (هذه طريقة رائعة للقول أنها ستبدو مثل مكالمة هاتفية أيضًا). وتوضح عينات Microsoft (في قسم “توليف التنوع”) أن VALL-E يمكن أن تولد اختلافات في نغمة الصوت عن طريق تغيير البذور العشوائية المستخدمة في عملية التوليد.
ربما يرجع الفضل في ذلك إلى قدرة VALL-E على تأجيج الأذى والخداع ، لم تقدم Microsoft رمز VALL-E للآخرين لتجربته ، لذلك لم نتمكن من اختبار قدرات VALL-E. يبدو أن الباحثين مدركون للضرر الاجتماعي المحتمل الذي يمكن أن تحدثه هذه التكنولوجيا. لاستنتاج الورقة ، كتبوا:
نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد ينطوي على مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر ، من الممكن بناء نموذج كشف للتمييز بين ما إذا كان مقطع الصوت قد تم تصنيعه بواسطة VALL-E. سنضع أيضًا مبادئ Microsoft AI موضع التنفيذ عند مواصلة تطوير النماذج. “