[ديب.IN. [مقال] خبير مزامنة الشفاه هو كل ما تحتاجه لتوليد الكلام إلى الشفاه في البرية - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
January 25, 2022

الملخص

تعد تقنية مزامنة الشفاه، التي تولد الحركة الصحيحة للشفاه لبيانات صوتية معينة، واحدة من أكثر المجالات شيوعًا في التعلم العميق. لنأخذ فيلمًا كمثال. ماذا لو قام ممثل أجنبي بالدبلجة وفقًا للغة بلدنا؟ مثل الممثل الذي عاش في كوريا لفترة طويلة، سيتم التعبير عن معنى الكلام جيدًا، وسيكون الانغماس أفضل بكثير. بالإضافة إلى ذلك، ليس من المستغرب أن تظهر الأخبار سياسيين من دول أخرى يتحدثون باللغة الكورية من خلال تقنية التعلم العميق. لذلك، من المتوقع أن تحقق تقنية مزامنة الشفاه الطبيعية والدقيقة قفزة كبيرة إلى الأمام في صناعة الخدمات والاتصالات المستقبلية.

كيف سيتم تطبيق تقنية مزامنة الشفاه؟ يمكن شرح ذلك في خطوتين رئيسيتين. أولاً، تتعلم الشبكة العصبية مطابقة الإحداثيات الرئيسية لشكل الشفاه المتزامن مع الصوت.

بعد ذلك، يتعلم تركيب مجموعة واقعية من النقاط الرئيسية للفم بناءً على الشفاه. التكنولوجيا المستخدمة في هذه الخطوة هي شبكة الخصومة التوليدية (GAN). هذا GAN هو نوع من الشبكات العصبية التي تطلق مخرجات لها توزيع مماثل مع مجموعة البيانات المكتسبة مسبقًا والتي تحتوي على ميزات معينة.

لنأخذ مثالاً. إذا قام بنك كوريا بتعليم الشبكة العصبية شكل العملة أو توزيعها اللوني، فسيكون قادرًا على إنشاء ورقة مزيفة واقعية. لذلك، تتعلم الشبكة العصبية صنع أشكال شفاه بشرية واقعية إذا قمنا بتدريس النقاط الرئيسية التقريبية.

ومع ذلك، لا يمكن للشبكة تعلم هذه التقنية بسهولة لأن الأشياء التي تصنع شكلًا واقعيًا للشفاه وتوليف الفك السفلي البشري هي مهام معقدة للغاية. على وجه الخصوص، إذا قمت بنقل كل هذه الواجبات المنزلية المعقدة بشكل غير مسؤول للتعلم جيدًا إلى شبكتك، فمن السهل ملاحظة أن الصوت والشفاه لا يتطابقان مع الوجوه المركبة بشكل غير واقعي.

 

المساهمة الرئيسية للورقة

  1. شبكة مزامنة الشفاه ويف 2 ليب تم اقتراح البنية التي تعمل جيدًا لخطاب الإدخال حتى في الظروف القاسية بأداء حديث.
  2. المعيار و متري تم اقتراح تقييم أداء مزامنة الشفاه.
  3. قاموا بجمع وتقديم مجموعة بيانات تسمى تقييم مزامنة الشفاه في العالم الحقيقي (تمت إعادة مزامنته).
  4. عند تقييم الفيديو المركب، أكثر من 90% من الأشخاص الذين تم تقييمهم كان أداء Wav2Lip أفضل من نماذج مزامنة الشفاه السابقة.

خط أساس SOTA السابق: نموذج LipGAN

أشار المؤلف إلى LipGAN [1]، شبكة SOTA السابقة، كخط أساس. ملخص موجز على النحو التالي.

  • نوع البيانات
  1. تم تحويل البيانات الصوتية بواسطة تقنية MFCC (معامل Cepstral بتردد ميل).
  2. صورة وجه الشخص المستهدف ليتم توليفها (صورة غير متزامنة مع البيانات الصوتية)
  3. صورة وجه الشخص المستهدف ليتم توليفها (يتم تغطية النصف السفلي من صورة المزامنة)

[آلية الشبكة]

 

  1. ال جهاز تشفير الصوت(4 كتل) معبرًا عنها باللون الأحمر تحسب بيانات MFCC.
  2. ال جهاز تشفير الوجه(7 كتل) معبرًا عنها باللون الأزرق تحسب صورة الوجه المتزامنة (النصف السفلي مغطى) وصورة الوجه الكاملة غير المتزامنة.
  3. اجمع بين متجه تضمين الصوت ومتجه تضمين الوجه الذي تم إنشاؤه من خلال المشفرين (اللون الأحمر والأزرق).
  4. اللون الأخضر وحدة فك ترميز الوجه(7 كتل) يصنع الوجه من ناقل التضمين المدمج. في هذا الوقت، استمر في تخطي الاتصال مثل U-Net بحيث يمكن الحفاظ على معلومات الوجه جيدًا وتسليمها إلى وحدة فك الترميز. تعمل عملية فك التشفير هذه كمولد في GAN. (تخصيص خسارة L1 لإعادة بناء الهدف (الحقيقة، صورة الوجه)
  5. تدخل الصورة المركبة وصورة الحقيقة الأرضية (الوجه المتزامن مع البيانات الصوتية) مشفر الوجه الأصفر وقم بتغييره إلى متجه التضمين من خلال عدة عمليات.
  6. وبالمثل، يتم تحويل بيانات MFCC الصوتية المستخدمة كمدخل إلى متجه تضمين من خلال مشفر صوت رمادي (4 كتل).
  7. خسارة تباينية يسمح لمتجه تضمين الصوت ومتجه تضمين الوجه بأن يصبحا 0 إذا لم تتم مزامنتهما و 1 إذا تمت مزامنتهما.

القيد

  1. تم تخصيص كمية كبيرة من المهام للمولد. تعلم هذه البنية عمل تجميع الوجوه الواقعية التي يمكن أن تكشف عن هوية الإنسان المستهدف والعمل على تحديد ما إذا كانت حركة الشفاه متزامنة أم لا من خلال الصور المركبة. بعبارة أخرى، لا يقتصر الأمر على دراسة الرياضيات وإجراء اختبار الرياضيات فحسب، بل ادرس الرياضيات واللغة الإنجليزية معًا واجتاز اختبارات لموضوعين. لذلك، الشبكات الحالية مثل نموذج LipGAN تعلم المهام المعقدة في وقت واحد، لذلك من الصعب تجميع أشكال الفم المناسبة.
  2. إذا كنت تقضي بالفعل حوالي 20 حقبة في التعلم، ما يقرب من نصف العصور منحازة نحو تخليق الوجه، ويتم تركيب الشفاه فقط بعد ذلك. لذلك، فإن تعلم شكل الشفاه ليس سوى عدد قليل من عملية التعلم بأكملها. أشار المؤلف إلى ذلك الخسارة حول الفم هي انخفاض الأداء بنسبة 4٪ بدلاً من إعادة بناء البكسل.
  3. يقوم LipGaN بتجميع إطار واحد فقط. ومع ذلك، بالنظر إلى أن شكل الفم يتأثر فعليًا بالصوت المذكور أعلاه، تجميع الصورة من إطارات متعددة التي يمكن أن تتعلم المعرفة المسبقة هي أكثر ملاءمة لحركات الفم الطبيعية.

نموذج Wav2Lip

لتحسين مشكلات LipGaN، يقترح المؤلف بنية تسمى Wav2Lip.

  • نوع البيانات
  1. تم تحويل البيانات الصوتية بواسطة تقنية MFCC (معامل Cepstral بتردد ميل).
  2. صورة وجه الشخص المستهدف ليتم توليفها (صورة غير متزامنة مع البيانات الصوتية)
  3. صورة وجه الشخص المستهدف ليتم توليفها (يتم تغطية النصف السفلي من صورة المزامنة)

 

  • آلية الشبكة
  1. ال جهاز تشفير الصوت معبرًا عنه باللون الأخضر يحسب بيانات MFCC.
  2. ال جهاز تشفير الوجه معبرًا عنه باللون الأزرق يحسب صورة الوجه المتزامنة (النصف السفلي مغطى) وصورة الوجه الكاملة غير المتزامنة. على عكس LipGAN، استخدمنا عدة إطارات متتالية بدلاً من إطار واحد.
  3. يتم دمج متجه تضمين الصوت وناقل تضمين الوجه الذي تم إنشاؤه بواسطة مشفرين لتمرير فك التشفير وإعادة بناء مجموعة صور الحقيقة الأرضية المستهدفة. هنا نخصص L1 Loss لإعادة الإعمار.
  1. يتم تقييم الصور التي تم إنشاؤها وصور الحقيقة الأساسية بواسطة أداة تمييز الجودة المرئية سواء كانت الصورة واقعية أم لا، حول عدم المزامنة الصوتية ولكن القطع الأثرية المرئية. على عكس ليبغان، إنتروبيا ثنائية متقاطعة تم استخدام الخسارة، وليس الخسارة المتناقضة. إنها تساعد في إزالة القطع الأثرية المرئية بغض النظر عن المزامنة الصوتية وتركز فقط على تركيب الوجه الواقعي. إنه يعزز الطالب الوحش الذي يمكنه حل مشكلة الرياضيات.
  2. يجب ترك الأمر للخبير لتحديد ما إذا كانت مزامنة الصوت ممتازة. أحضر خبير، وهو أداة تمييز Lip-Sync مدربة مسبقًا، لتقييم ما إذا كانت المزامنة صحيحة بين الصوت والصورة. النقطة الأساسية هي أن شبكتك تحتاج إلى الحصول على درجة موثوقة من خبير متعلم جيدًا، وإلا فلن تتمكن من تطوير مهارات التوليف الخاصة بها. في هذه الورقة، يجادلون بجلب شبكة ذكية قبل التدريب يمكنها تمييز المزامنة فقط بشكل احترافي. يمكن أن يؤدي ذلك إلى فقدان المزامنة الدقيقة بين الصورة المركبة والبيانات الصوتية. بتعبير أدق، فقدان تشابه جيب التمام يتم تعيينه للدرجة 1 إذا كانت المزامنة صحيحة و 0 إذا لم تكن صحيحة.

مقياس التقييم

  • مجموعة البيانات
  1. إل آر دبليو [4]
  2. LRS2 [5]
  3. LRS3 [6]
  • مجموعة البيانات
  1. إل آر دبليو [4]
  2. LRS2 [5]
  3. LRS3 [6]
  • سينكنيت: إل إس إي دي، إل إس إي سي

SyncNet هي شبكة ظهرت لتحديد ما إذا كان الفيديو مزيفًا أم لا [2]. عندما تقوم بإدخال شكل الفم لبيانات MFCC للفيديو والصوت، فإن مخرجات الشبكة تكون المسافة قريبة إذا كانت المزامنة صحيحة. إذا كانت المزامنة خاطئة، فإنها تخرج مسافة بعيدة بين متجهات تضمين الصوت ومتجهات تضمين الفيديو.

في هذا الوقت، يتم استخدام مسافة خطأ Lip-Sync (LSE-D) كعنصر تقييم لتحديد ما إذا كانت مزامنة بيانات الإطار والصوت صحيحة.

 

 

إذا قمت بإجراء إزاحة زمنية بين إطار الفيديو والصوت، فيمكننا مقارنة المسافة بين متجهات تضمين الصوت والفيديو. في اللحظة التي تتطابق فيها المزامنة (حيث يكون الإزاحة الزمنية 0)، يكون LSE-D صغيرًا، ويزداد الإزاحة، مما يتسبب في ابتعاد المسافة. لذلك، ظهرت الثقة في أخطاء Lip-Sync (LSE-C)، وهي نوع من مؤشرات الموثوقية، لمعرفة أن الفيديو والصوت يتناسبان مع جزء المزامنة وفقًا للتغير في قيمة المسافة. يقومون بحساب الفرق بين القيمة المتوسطة والحد الأدنى لقيمة المسافة.

 

  • RFID (مسافة بدء الفراشيه)

 

النتائج

1. النافذة الزمنية: أحد الاختلافات الكبيرة عن LipGAN الخاص بـ Baseline هو أن Wav2Lip يستخدم إطارات متعددة كمدخل له. في الواقع، نتيجة للتعلم من خلال زيادة عدد الإطارات، وجد أن كلا من LSE-D و LSE-C أظهرا أداءً جيدًا مع زيادة النافذة الحرارية.

 

2. أداة التمييز المدربة مسبقًا: نتيجة لاستخدام خبير الشبكة قبل التدريب الذي يساعد على التحقق من مزامنة الشفاه فقط بشكل احترافي، أظهرت عناصر تقييم LSE-D و LSE-C أداءً أفضل من طرازي Speech2Vid [3] و LipGAN الحاليين. راجع إلى Wav2Lip (ساعات)

 

 

3. مُميز الجودة المرئية: على عكس LipGAN، أظهرت إضافة أداة تمييز تقارن صور الرؤية فقط لتحديد الصور الحقيقية/المزيفة انخفاضًا طفيفًا في الأداء في LSE-D و LSE-C، ولكن من حيث FID، فإن جودة الصورة المرئية أفضل بكثير. لذلك، يمكنك التعبير عن حركة شفاه أكثر واقعية. كما حصلت على درجات أعلى بكثير من التفضيلات وتجربة المستخدم. ارجع إلى Wav2Lip+ GAN (ساعات)

 

 

الخلاصة والرأي

إنها شبكة يمكنها تجميع مقاطع فيديو أكثر دقة لمزامنة الشفاه مقارنة بالموديلات السابقة. كان من المثير للإعجاب أنه لم يقتصر على استخدام أدوات التمييز لإزالة الآثار المرئية، ولكنه عزز الأداء من خلال أدوات التمييز الخارجية التي تم تعلمها مسبقًا من أجل مزامنة أفضل بكثير. بالإضافة إلى ذلك، تم توفير العديد من المقاييس ومجموعات البيانات لتقييم الأداء، وأثبتت أعلى الموضوعية والموثوقية من خلال درجة التفضيل من خلال تجربة المستخدم. في المستقبل القريب، ستتم إضافة عرض الحركة مثل الإيماءات ووضع الرأس، ويتم إجراء الكثير من الأبحاث بالفعل. من المتوقع أن يتطور نموذج تركيب مزامنة الشفاه من خلال التعلم العميق بشكل أكبر وأن يتعامل مع البشر كخدمة أكثر ثراءً.

 

مرجع

[1] نحو الترجمة الآلية وجهًا لوجه

[2] نفاد الوقت: المزامنة التلقائية للشفاه في البرية

[3] طرق التدرج الفرعي التكيفية للتعلم عبر الإنترنت والتحسين العشوائي

[4] قراءة الشفاه في البرية

[5] التعرف العميق على الكلام السمعي البصري

[6] LRS3-TED: مجموعة بيانات واسعة النطاق للتعرف على الكلام المرئي

[7] U-Net: الشبكات التلافيفية للصورة الطبية الحيوية

Most Read

Most Read

دعونا نبقى على اتصال

فريقنا جاهز لدعمك في رحلتك البشرية الافتراضية. انقر أدناه للتواصل وسيتواصل معك شخص ما قريبًا.