[ديب.IN. [مقال] AdaSpeech2: نص متكيف مع الكلام مع بيانات غير مكتوبة - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
March 2, 2022
فريق التعلم العميق: كولين
الملخص

مثل نموذج AdaSpeech الذي نظرنا إليه في المرة الأخيرة، استخدمت طريقة تكييف TTS الحالية بيانات زوج الكلام النصي لتجميع أصوات متحدث معين. ومع ذلك، نظرًا لأنه من الصعب عمليًا إعداد البيانات في أزواج، فستكون طريقة أكثر فاعلية لتكييف نموذج TTS فقط مع بيانات الكلام التي لم يتم نسخها. أسهل طريقة للوصول هي استخدام نظام التعرف التلقائي على الكلام (ASR) للنسخ، ولكن من الصعب تطبيقه في مواقف معينة ودقة التعرف ليست عالية بما يكفي، مما قد يقلل من أداء التكيف النهائي. وكانت هناك محاولات لحل هذه المشكلة من خلال التدريب المشترك لخط أنابيب TTS ووحدة التكيف، والتي لها عيب يتمثل في عدم القدرة على الاندماج بسهولة مع نماذج TTS التجارية الأخرى.

يصمم AdaSpeech2 وحدة إضافية يمكنها الجمع بين أي نموذج TTS معًا لتمكين التعلم باستخدام الكلام غير المكتوب (قابل للتوصيل)، ومن هذا المنطلق، يقترح نموذجًا يمكنه إنتاج نتائج مكافئة لأداء نموذج TTS المتكيف تمامًا مع بيانات الكلام النصي (فعال).

ملخص للأشخاص المشغولين
  • تم إرفاق وحدات إضافية ببنية AdaSpeech للحث على التكيف مع مكبرات صوت محددة باستخدام بيانات الكلام فقط.
  • تم تدريب المساحة الكامنة لـ Mel Encoder لتكون مشابهة للمساحة الكامنة لـ Phoneme Encoder، لذلك يمكن لـ Mel Decoder تلقي نفس الميزات بغض النظر عما إذا كان الإدخال يأتي في شكل نص أو كلام. هذا مناسب للحالات التي يجب فيها إدخال بيانات الكلام فقط في نموذج TTS المدرب مسبقًا.
  • يمكن استخدام طريقة التكيف الخاصة بـ AdaSpeech2 من خلال إرفاق أي نموذج TTS ويمكن أن تنتج أداءً مشابهًا للنماذج التي قامت بتكييف مكبرات صوت معينة مع بيانات زوج النص والكلام.

هيكل النموذج

يستخدم AdaSpeech2 AdaSpeech، الذي يتكون من مشفر صوتي ووحدة فك ترميز MEL-spectrogram، كنموذج أساسي. تُستخدم نمذجة الحالة الصوتية وتطبيع الطبقة الشرطية مثل AdaSpeech الحالي، ولكن لا يتم التعبير عنها في الشكل أعلاه من أجل البساطة. هنا، أضف مشفر MEL-spectrogram الذي يستقبل بيانات الكلام ويشفرها، وقم بتطبيق فقدان L2 لجعله مشابهًا لمخرجات برنامج تشفير الصوت. سيتم شرح عملية التعلم التفصيلية أدناه.

عملية التدريب والاستدلال

الخطوة 1. تدريب نموذج المصدر

بادئ ذي بدء، من المهم تدريب نموذج TTS المصدر جيدًا. قم بتدريب مشفر الصوت ووحدة فك ترميز الطيف اللوني لنموذج AdaSpeech بكمية كافية من أزواج النص والكلام، حيث يتم الحصول على معلومات المدة لتمديد إخراج مشفر الصوت إلى طول مخطط طيف الذوبان من خلال Montreal Forced Alignment (MFA).

الخطوة 2. محاذاة مشفر الوجبات

إذا كان لديك نموذج مصدر مدرب جيدًا، فقم بإرفاق مشفر MEL-spectrogram لتكييف الكلام غير المكتوب. أخيرًا، تلعب دورًا في إنشاء الميزات التي ستدخل وحدة فك ترميز mel-spectrogram أثناء ترميز الكلام تلقائيًا، ويجب جعلها مماثلة للمساحة الكامنة في مشفر الصوت لأنه يجب أن يبصق نفس الإخراج مثل الميزة من بيانات النسخ (النص). لذلك، بينما نمضي في تعلم TTS مرة أخرى باستخدام بيانات الكلام النصي، نحصل على خسارة L2 ونقللها بين التسلسل من مشفر الصوت والتسلسل من مشفر mel-spectrogram، مما يؤدي إلى محاذاة المسافات الكامنة بين الاثنين. في الوقت الحالي، يمكن التعبير عن هذه الطريقة على أنها قابلة للتوصيل لأنها لا تعيد تدريب البنية بأكملها، ولكنها تعمل على إصلاح معايير نموذج المصدر وتحديث معايير مشفر mel-spectrogram فقط.

الخطوة 3. تكييف الكلام غير المكتوب

الآن قم بضبط النموذج باستخدام بيانات الكلام (غير المكتوبة) فقط للمتكلم المحدد الذي تريد تجميعه. نظرًا لأن خطاب الإدخال يتم تصنيعه مرة أخرى إلى الكلام عبر مشفر mel-spectrogram ووحدة فك ترميز mel-spectrogram، فهي طريقة لاستعادة الكلام من خلال الترميز التلقائي، حيث يقوم النموذج المصدر بتحديث تطبيع الطبقة الشرطية فقط لوحدة فك ترميز mel-spectrogram ويقلل من الحساب.

الخطوة 4. الإستدلال

بمجرد الانتهاء من جميع عمليات التكيف المذكورة أعلاه، يمكن للنموذج الآن محاكاة صوت مكبر صوت معين من خلال مشفر صوتي لم يتم ضبطه بدقة ووحدة فك ترميز طيف الذوبان التي تم ضبطها جزئيًا عند إدخال النص.

نتائج التجربة
جودة صوت التكيف

في الجدول 1، يعد التدريب المشترك إعدادًا يستخدم كأساس في هذه التجربة من خلال تعلم كل من مشفرات الصوت ومشفرات MEL-spectrogram في نفس الوقت، ويتم الحكم على استراتيجية تعلم مشفرات الصوت وطيف الذوبان بالترتيب على أنها متفوقة.

بالإضافة إلى ذلك، تم اعتبار أداء النماذج المستندة إلى Adaspech و PPG المستخدمة كعمود فقري هو الحد الأعلى لأداء AdaSpeech2، لذلك أجرينا تجربة لمقارنتها معًا. من نتائج MOS و SMOS، يمكننا أن نرى أن AdaSpeech2 يصنع أصواتًا بنفس الجودة تقريبًا مثل النماذج التي تعتبر حدودًا عليا.

تحليلات حول استراتيجية التكيف

 

تم إجراء دراسة الاجتثاث لتقييم ما إذا كانت الاستراتيجيات المذكورة سابقًا في عملية التعلم قد ساهمت في تحسين أداء النموذج. ونتيجة لذلك، تتدهور جودة الصوت إذا تمت إزالة فقدان L2 بين إخراج مشفر الصوت ومشفر MEL-spectrogram، أو تم تحديث مشفر mel-spectrogram أيضًا في خطوة الضبط الدقيق.

 

بيانات التكيف المتغيرة

عندما يكون عدد عينات بيانات الكلام التكيفي أقل من 20، تتحسن جودة التوليف بشكل كبير مع زيادة كمية البيانات، ولكن إذا تجاوزت ذلك، فلن يكون هناك تحسن كبير في الجودة.

 

الخلاصة والرأي

يعرف مهندسو التعلم الآلي الذين يقومون بتدريب نماذج TTS أن جودة البيانات هي جودة اصطناعية، لذلك يبذلون الكثير من الجهد في جمع البيانات ومعالجتها مسبقًا. ومن أجل تجميع الأصوات مع مكبرات صوت جديدة، يتم جمع ملفات كلام المتحدثين الجدد والنص المنسوخ في أزواج لإعادة تدريب نموذج TTS من البداية، ولكن باستخدام طريقة AdaSpeech2، يجب جمع البيانات فقط ويجب ضبط النموذج بدقة. ميزة أخرى هي أنه من السهل تطبيقه في الواقع لأنه يمكن دمجه مع أي نموذج TTS.

إذا شرعنا في مزيد من البحث في AdaSpeech2، فقد يكون موضوعًا مثيرًا للاهتمام ملاحظة تغييرات الأداء الناتجة باستخدام وظائف المسافة الجديدة مثل تشابه جيب التمام كقيود بدلاً من خسارة L2.

في المرة القادمة، سيكون لدينا الوقت لتقديم الورقة الأخيرة من سلسلة AdaSpeech.

مرجع

(1) [ورقة Ada Speech 2] AdaSpeech 2: نص متكيف مع الكلام مع بيانات غير مكتوبة

(2) [عرض توضيحي لـ AdaSpeech 2] https://speechresearch.github.io/adaspeech2/

 

Most Read

Most Read

دعونا نبقى على اتصال

فريقنا جاهز لدعمك في رحلتك البشرية الافتراضية. انقر أدناه للتواصل وسيتواصل معك شخص ما قريبًا.