التدريب مع خط أنابيب البيانات الآلي
يعتمد Voyager على Hunyuanworld 1.0 من Tencent ، الذي تم إصداره في يوليو. يعد Voyager أيضًا جزءًا من نظام Tencent الأوسع “Hunyuan” ، والذي يتضمن نموذج Hunyuan3D-2 للجيل إلى 3D و Hunyuanvideo المغطى سابقًا لتوليف الفيديو.
لتدريب Voyager ، قام الباحثون بتطوير برامج تقوم تلقائيًا بتحليل مقاطع الفيديو الحالية لمعالجة حركات الكاميرا وحساب العمق لكل إطار – مما يثير حاجة البشر لتسمية آلاف الساعات من اللقطات يدويًا. قام النظام بمعالجة أكثر من 100000 مقاطع فيديو من كل من التسجيلات في العالم الحقيقي ومحرك غير واقعي المذكور أعلاه.
رسم تخطيطي لخط أنابيب Voyager World Creation.
الائتمان: تينسنت
يتطلب النموذج قوة حوسبة خطيرة للتشغيل ، والتي تتطلب ما لا يقل عن 60 جيجابايت من ذاكرة GPU بدقة 540 بكسل ، على الرغم من أن Tencent توصي 80 جيجابايت لتحسين نتائج. نشرت Tencent الأوزان النموذجية على الوجه المعانقة وشملت التعليمات البرمجية التي تعمل مع كل من إعدادات GPU الفردية والمتعددة.
يأتي النموذج مع قيود الترخيص البارزة. مثل نماذج هانايوان الأخرى من تينسنت ، يحظر الترخيص الاستخدام في الاتحاد الأوروبي والمملكة المتحدة وكوريا الجنوبية. بالإضافة إلى ذلك ، تتطلب عمليات النشر التجارية التي تخدم أكثر من 100 مليون مستخدم نشط شهريًا ترخيصًا منفصلًا من Tencent.
على المعيار العالمي الذي طوره باحثو جامعة ستانفورد ، وبحسب ما ورد حقق Voyager أعلى درجة إجمالية بلغت 77.62 ، مقارنة بـ 72.69 لـ Wonderworld و 62.15 لـ Cogvideox-I2v. وبحسب ما ورد ، تميز النموذج في التحكم في الكائنات (66.92) ، واتساق النمط (84.89) ، والجودة الذاتية (71.09) ، على الرغم من أنه احتل المركز الثاني في التحكم في الكاميرا (85.95) خلف Wonderworld’s 92.98. يقيم WorldScore مناهج التوليد العالمي عبر معايير متعددة ، بما في ذلك الاتساق ثلاثي الأبعاد ومواءمة المحتوى.
في حين أن هذه النتائج القياسية المبلغ عنها ذاتيا تبدو واعدة ، فإن النشر الأوسع لا يزال يواجه تحديات بسبب العضلات الحسابية المعنية. للمطورين الذين يحتاجون إلى معالجة أسرع ، يدعم النظام الاستدلال المتوازي عبر وحدات معالجة الرسومات المتعددة باستخدام إطار XDIT. يوفر تشغيل ثمانية وحدات معالجة الرسومات سرعات المعالجة 6.69 مرة أسرع من إعدادات GPU واحدة.
بالنظر إلى قوة المعالجة المطلوبة والقيود في توليد “عوالم طويلة ومتماسكة” ، قد تمر بعض الوقت قبل أن نرى تجارب تفاعلية في الوقت الفعلي باستخدام تقنية مماثلة. ولكن كما رأينا حتى الآن مع تجارب مثل جيني من Google ، فمن المحتمل أن نشهد خطوات مبكرة جدًا في شكل فني تفاعلي جديد.