يُظهر شراء Apple المفاجئ في نهاية الشهر الماضي لشركة WaveOne ، وهي شركة ناشئة مقرها كاليفورنيا تعمل على تطوير خوارزميات الذكاء الاصطناعي المدركة للمحتوى لضغط الفيديو ، تحولًا مهمًا في كيفية بث إشارات الفيديو إلى أجهزتنا. من المحتمل أن يؤدي شراء Cupertino على المدى القريب إلى أدوات ضغط الفيديو الذكية في منتجات إنشاء الفيديو من Apple وفي تطوير سماعة الواقع المعزز التي نوقشت كثيرًا.
ومع ذلك ، فإن Apple ليست وحدها. من المرجح أن تثبت الشركات الناشئة في مجال ترميز الفيديو بالذكاء الاصطناعي أهداف استحواذ لشركات أخرى تحاول مواكبة ذلك.
لعقود من الزمن ، استخدم ضغط الفيديو نماذج رياضية لتقليل النطاق الترددي المطلوب لنقل الإشارات التناظرية ، مع التركيز على الأجزاء المتغيرة للمشهد من إطار إلى إطار. عندما تم تقديم الفيديو الرقمي في السبعينيات ، أصبح تحسين ضغط الفيديو محورًا رئيسيًا للبحث ، مما أدى إلى تطوير العديد من خوارزميات الضغط التي تسمى برامج الترميز ، وهي اختصار لـ “وحدة فك التشفير” ، والتي تقوم بضغط ملفات الوسائط الرقمية وفك ضغطها. مهدت هذه الخوارزميات الطريق للسيطرة الحالية للفيديو في العصر الرقمي.
أظهر ضغط AI للصور الثابتة نجاحًا أوليًا. لا يزال الفيديو أكثر صعوبة.
على الرغم من ظهور معيار ترميز جديد كل 10 سنوات تقريبًا ، فقد استندت جميعها إلى رياضيات البكسل – معالجة قيم وحدات البكسل الفردية في إطار فيديو لإزالة المعلومات غير الضرورية للإدراك البشري. تقلل العمليات الحسابية الأخرى من كمية البيانات التي يجب إرسالها أو تخزينها.
تستخدم برامج ترميز AI ، التي تم تطويرها على مدار عقود ، خوارزميات التعلم الآلي لتحليل وفهم المحتوى المرئي للفيديو ، وتحديد التكرار والبيانات غير الوظيفية ، وضغط الفيديو بطريقة أكثر كفاءة. يستخدمون تقنيات قائمة على التعلم بدلاً من الأدوات المصممة يدويًا للتشفير ويمكنهم استخدام طرق مختلفة لقياس جودة الترميز بما يتجاوز مقاييس التشويه التقليدية. تساعد التطورات الحديثة ، مثل آليات الانتباه ، على فهم البيانات بشكل أفضل وتحسين الجودة المرئية.
خلال النصف الأول من العقد الأول من القرن الحادي والعشرين ، ساعدت Netflix وشركة Harmonic التي تتخذ من كاليفورنيا مقراً لها في قيادة حركة لما يسمى ترميز “الوعي بالمحتوى”. يستخدم CAE ، كما يطلق عليه Harmonic ، الذكاء الاصطناعي لتحليل وتحديد الأجزاء الأكثر أهمية في مشهد الفيديو ، ولتخصيص المزيد من البتات لتلك الأجزاء للحصول على جودة بصرية أفضل ، مع تقليل معدل البت للأجزاء الأقل أهمية من المشهد.
يعمل ضغط الفيديو مع مراعاة المحتوى على ضبط المشفر لدرجات دقة مختلفة للترميز ، وضبط معدل البت وفقًا للمحتوى ، وضبط نقاط الجودة – الجودة المتصورة لمقطع فيديو مضغوط مقارنةً بالفيديو الأصلي غير المضغوط. كل هذه الأشياء يمكن القيام بها عن طريق التشفير العصبي أيضًا.
ومع ذلك ، على الرغم من الجهود التي استمرت لعقد من الزمن ، فإن ضغط الفيديو العصبي الكامل – باستخدام التعلم العميق – لم يتغلب على أفضل تكوينات معايير الترميز التقليدية في الظروف العادية. تظهر المراجعات من الأطراف الثالثة أنه عند قياسها بمقاييس التشويه التقليدية بالإضافة إلى نتائج الرأي البشري ، لا تزال برامج ترميز الفيديو التقليدية تتفوق على ضغط الشبكة العصبية ، خاصةً عندما يتم تحسين أدوات التشفير التقليدية باستخدام أدوات الذكاء الاصطناعي.
أظهر WaveOne نجاحًا في ضغط الشبكة العصبية للصور الثابتة. في إحدى المقارنات ، كانت عمليات إعادة بناء WaveOne للصور أكثر احتمالًا من خمسة إلى 10 مرات أن يتم اختيارها على برامج الترميز التقليدية من قبل مجموعة من المستخدمين المستقلين.
لكن الارتباط الزمني في مقطع فيديو أقوى بكثير من الارتباط المكاني في صورة ما ويجب عليك تشفير المجال الزمني بكفاءة عالية للتغلب على أحدث ما توصلت إليه التقنية.
قال يانيس أندريوبولوس ، أستاذ معالجة البيانات والإشارات في يونيفرسيتي كوليدج لندن ورئيس قسم التكنولوجيا في iSIZE Technologies: “في الوقت الحالي ، لم تكن برامج تشفير الفيديو العصبية موجودة بعد”.
من المحتمل أن يواصل WaveOne العمل على ضغط الفيديو العصبي الكامل تحت رعاية Apple. وفقًا للبحث العام لـ WaveOne ، فإن تقنية الضغط العصبي الخاصة بها غير متوافقة مع معايير الترميز الحالية وهذا يتناسب مع سياسة Apple الخاصة ببناء المنتجات التي تعمل معًا بسلاسة ولكنها مملوكة ويتم التحكم فيها بإحكام من قبل Apple.
رفض مؤسس WaveOne ، Lubomir Bourdev ، التعليق على الوضع الحالي لتقنيتها ولم تستجب شركة Apple لطلبات التعليق.
سيعمل الذكاء الاصطناعي وبرامج الترميز التقليدية في الوقت الحالي جنبًا إلى جنب – جزئيًا لأنه يمكن تصحيح أخطاء التشفير التقليدية.
ومع ذلك ، يبدو أن الصناعة تتجه نحو الجمع بين الذكاء الاصطناعي وبرامج الترميز التقليدية – بدلاً من الاعتماد على ضغط الشبكة العصبية الكامل.
تستخدم Vnova ، على سبيل المثال ، تصغير النطاق المعياري للترميز المسبق وترقية ما بعد فك التشفير ، وفقًا لموقعها ، لجعل برنامج التشفير الخاص بها أكثر كفاءة وأسرع من المشفر. لكن المستخدمين يحتاجون إلى مكونات برمجية على جانب وحدة التشفير وجانب وحدة فك التشفير.
تعمل شركة iSIZE التي تتخذ من لندن مقراً لها أيضًا على تحسين برامج تشفير الفيديو التقليدية من خلال المعالجة المسبقة القائمة على الذكاء الاصطناعي لتحسين جودة وكفاءة معدل البت للتشفير التقليدي. لا يحتاج مستخدمو iSIZE إلى مكون في طرف جهاز الاستقبال. تنتج التكنولوجيا فقط تمثيلات مخصصة في المعالجة المسبقة التي تجعل التشفير أكثر كفاءة. يمكنه إضافة مكون معالجة ما بعد ، لكن هذا اختياري.
قال Sergio Grce الرئيس التنفيذي لـ iSIZE في مكالمة Zoom: “من خلال إضافة مكون AI قبل برنامج التشفير ، بغض النظر عن برنامج التشفير الذي تستخدمه ، فإننا نقوم بتقليل معدل البت المطلوب لضغط بعض عناصر كل إطار فيديو”. يتعلم مكون الذكاء الاصطناعي الخاص بنا تقليل التفاصيل التي لن يلاحظها المشاهدون عند مشاهدة مقطع فيديو يتم تشغيله بمعدل إعادة التشغيل العادي.
نتيجة لذلك ، يقول Grce ، تكون عملية التشفير أسرع وينخفض وقت الاستجابة – وهي بالتأكيد ميزة مهمة للواقع الافتراضي حيث يمكن أن يؤدي الكمون إلى الغثيان من جانب المستخدمين. يقول Grce إن الملف الذي يبثه المشفر أصغر بكثير دون تغيير أي شيء على جهاز المستخدم النهائي.
من الناحية النظرية ، يجب الحفاظ على كل شيء في الفيديو. يقوم برنامج الترميز المثالي بترميز كل شيء يستقبله في جزء من المحتوى – وليس لتغييره – وهذا هو السبب في أن المشفرات تركز تقليديًا على ما يسمى مقاييس التشويه. تتضمن هذه القياسات نسبة الإشارة إلى الضوضاء (SNR) ، مؤشر التشابه الهيكلي (SSIM) ، ونسبة الإشارة إلى الضوضاء (PSNR). توفر جميعها مقياسًا كميًا لمدى تطابق الفيديو المضغوط مع الفيديو الأصلي من حيث الجودة المرئية.
ومع ذلك ، في السنوات الأخيرة ، كان هناك تركيز متزايد على مقاييس الجودة الإدراكية التي تأخذ في الاعتبار كيف ينظر المشاهدون إلى الفيديو المضغوط. تهدف هذه المقاييس إلى قياس الجودة المرئية للفيديو المضغوط بناءً على كيفية إدراك البشر له بدلاً من مجرد القياسات الرياضية. فبعض التشوهات ، بعد كل شيء ، قد تكون غير مهمة رياضيًا ولكنها لا تزال قابلة للملاحظة. (على سبيل المثال ، قد لا يمثل تشويش وضوح جزء صغير من وجه الشخص الكثير بالنظر إلى الصورة الإجمالية أو ملف الفيديو ، ولكن لا يزال من الممكن ملاحظة التغييرات الصغيرة على هذه الميزات المميزة.) ونتيجة لذلك ، يتم تطوير تقنيات ضغط الفيديو الجديدة التي النظر في كل من التشويه ومقاييس الجودة الإدراكية.
في الآونة الأخيرة ، تتحرك الأشياء أكثر نحو الترميز الموجه نحو الإدراك ، وتغيير التفاصيل الدقيقة في المحتوى بناءً على كيفية إدراك البشر له بدلاً من القياسات الرياضية فقط. من الأسهل القيام بذلك باستخدام المشفرات العصبية لأنها ترى الإطار بأكمله ، بينما تعمل المشفرات التقليدية على مستوى macroblock أو مستوى الشريحة ، ولا ترى سوى جزء صغير من الإطار.
في الوقت الحالي ، قال أندريوبولوس: “ستعمل تقنيات الذكاء الاصطناعي والتقنيات التقليدية جنبًا إلى جنب” ، وذلك جزئيًا ، كما قال ، لأن برامج التشفير التقليدية قابلة للتفسير ويمكن تصحيح أخطائها. تشتهر الشبكات العصبية بأنها “صناديق سوداء” غامضة. وأضاف أندريوبولوس ، ما إذا كان الترميز العصبي طويل المدى سيتغلب على التقليدي ، لا يزال سؤالًا مفتوحًا.
يمكن أن تستخدم Apple تقنية WaveOne لتحسين كفاءة دفق الفيديو ، وتقليل تكاليف النطاق الترددي ، وتمكين دقة أعلى ومعدلات الإطارات على نظامها الأساسي + Apple TV. هذه التقنية لا تعتمد على الأجهزة ويمكن أن تعمل على مسرعات الذكاء الاصطناعي المدمجة في العديد من الهواتف وأجهزة الكمبيوتر المحمولة. وفي الوقت نفسه ، فإن metaverse ، إذا تحقق ، سيشمل كمية هائلة من نقل البيانات وتخزينها.
هناك العديد من الشركات التي تعمل على استخدام الذكاء الاصطناعي لتحسين برامج ترميز الفيديو القياسية بما في ذلك Bitmovin و Beamr و NGCodec ، والتي أصبحت الآن جزءًا من AMD.
من مقالات موقعك
مقالات ذات صلة حول الويب