فريق التعلم العميق: كولين

الملخص

ربما تكون قد جربت تغيير صوت الصوت الموجه أثناء استخدام مكبرات صوت AI أو التنقل. قمت بضبط صوت مكبر الصوت بصوت الممثل المفضل لدي Yoo in-na، وأصبح من المهم تجميع الكلام بأصوات مختلفة حيث تم دمج تقنية تركيب الكلام في أجزاء مختلفة من الحياة، مثل المساعدين الشخصيين والبث الإخباري والتوجيهات الصوتية. وهناك طلب متزايد على استخدام ليس فقط أصوات الآخرين ولكن أيضًا أصواتهم كصوت الذكاء الاصطناعي، وهو ما يسمى بالتوليف الصوتي المخصص في مجال أبحاث تركيب الكلام.

اليوم، سننظر إلى نموذج تحويل النص إلى كلام (TTS) المسمى AdaSpeech والذي ظهر للتوليف الصوتي المخصص. تتم تقنية إنشاء صوت مخصص بشكل أساسي من خلال عملية تكييف نموذج TTS المصدر المدرب مسبقًا مع صوت المستخدم. معظم بيانات كلام المستخدم المستخدمة في هذا الوقت صغيرة لأغراض الراحة، وبما أن الكمية صغيرة، فمن الصعب جدًا جعل الصوت الذي تم إنشاؤه يبدو طبيعيًا ومشابهًا للصوت الأصلي. هناك مشكلتان رئيسيتان في تدريب الشبكات العصبية بصوت مخصص.

أولاً، غالبًا ما تحتوي أصوات بعض المستخدمين على ظروف صوتية مختلفة عن بيانات الكلام المستفادة من نموذج TTS المصدر. على سبيل المثال، هناك مجموعة متنوعة من القوافي والأنماط والعواطف ونقاط القوة وبيئات التسجيل للمتحدثين، ويمكن أن تؤدي الاختلافات في بيانات الكلام الناتجة عنها إلى إعاقة أداء التعميم للنموذج المصدر، مما يؤدي إلى ضعف جودة التكيف.

ثانيًا، عند تكييف نموذج TTS المصدر مع صوت جديد، هناك مقايضة في معايير الضبط الدقيق وجودة الصوت. بعبارة أخرى، كلما زادت المعلمات القابلة للتكيف التي تستخدمها، زادت الجودة التي يمكنك إنتاجها، ولكن كلما زاد استخدام الذاكرة وزادت تكلفة نشر النموذج.

تم التعامل مع الدراسات الحالية من خلال تحديد طريقة لضبط النموذج أو الجزء بأكمله (خاصة وحدة فك الترميز)، والضبط الدقيق لتضمين السماعات فقط المستخدم لتمييز مكبرات الصوت في تركيب الكلام متعدد المتحدثين، وتدريب وحدة تشفير السماعات، وافتراض أن مجال الكلام المصدر والبيانات التكيفية هو نفسه. ومع ذلك، هناك مشكلة في الاستخدام الفعلي بسبب وجود عدد كبير جدًا من المعلمات أو أنها لا تنتج جودة مرضية.

AdaSpeech هو نموذج TTS يمكنه توليد أصوات المستخدمين الجدد (أو مكبرات الصوت) بكفاءة بجودة عالية مع حل المشكلات المذكورة أعلاه. تم تقسيم خط الأنابيب إلى حد كبير إلى ثلاث مراحل: التدريب المسبق والضبط الدقيق والاستدلال، ويتم استخدام طريقتين لحل الصعوبات الحالية. من الآن فصاعدًا، سننظر إليهم معًا! 🙂

ملخص للأشخاص المشغولين

تم تحسين أداء التعميم للنموذج من خلال استخراج الميزات الصوتية وفقًا لنطاقات مختلفة من بيانات الكلام وإضافتها إلى متجهات ترميز الصوت الحالية من خلال نمذجة الحالة الصوتية.
لقد قاموا بتحسين عملية تكييف نموذج المصدر بكفاءة مع بيانات السماعة الجديدة باستخدام تطبيع الطبقة الشرطية.
أصبح من الممكن إنشاء أصوات مخصصة عالية الجودة مع عدد أقل من المعلمات وبيانات الكلام الجديدة أقل من النماذج الأساسية التقليدية.

هيكل النموذج

النموذج الأساسي لـ AdaSpeech هو FastSpeech 2. وتتكون إلى حد كبير من أجهزة تشفير الصوت ومحولات التباين ووحدة فك ترميز الصوت. يتضمن عنصرين جديدين (المناطق الوردية في الشكل 1) ابتكرهما المؤلفون.

نمذجة الحالة الصوتية

بشكل عام، من المهم زيادة أداء التعميم للنموذج لأن صوت المصدر المستخدم في التدريب النموذجي لا يمكن أن يغطي جميع الميزات الصوتية لصوت المستخدم الجديد. نظرًا لصعوبة احتواء هذه الميزات الصوتية في النص الذي أدخله النموذج في TTS، فإن النموذج لديه تحيز في تذكر الميزات الصوتية في بيانات التدريب، والتي تعمل كعائق أمام أداء التعميم عند إنشاء أصوات مخصصة. تتمثل أبسط طريقة لحل هذه المشكلة في توفير ميزات صوتية كمدخل للنموذج، والذي ينقسم إلى مستوى مكبر الصوت ومستوى الكلام ومستوى الصوت، ويسمى نمذجة الحالة الصوتية، والتي تتضمن مجموعة متنوعة من ميزات الصوت من المنطقة الواسعة إلى المعلومات الطرفية. يحتوي كل مستوى على المعلومات التالية.

مستوى مكبر الصوت: مستوى يلتقط الخصائص العامة للمتكلم، ويمثل أكبر مجموعة من الخصائص الصوتية (مثل تضمين مكبر الصوت).
مستوى الكلام: المستوى الذي يلتقط الميزات التي تظهر عند نطق الجملة، ويتم استخدام مخطط طيف الصوت لصوت مرجعي كمدخل ويتم إخراج متجه الميزة منه. عند تدريب النموذج، يصبح الصوت المستهدف صوتًا مرجعيًا، وفي الاستدلال، يتم اختيار أحد أصوات المتحدث الذي تريد تجميعه عشوائيًا واستخدامه كصوت مرجعي.
مستوى الصوت: أصغر نطاق من المستويات التي تلتقط الميزات في وحدات الصوتيات في الجملة (على سبيل المثال، قوة صوت معين، والنغمة، والقافية، والضوضاء المحيطة المؤقتة). في هذه الحالة، يتم إدخال مخطط الطيف الصوتي الذي يتم التعبير عنه عن طريق استبدال إطارات الميل المقابلة لنفس الصوت بالمتوسط داخل القسم. وفي الاستدلال، على الرغم من أن البنية هي نفسها، فإننا نستخدم متنبئًا صوتيًا يستقبل المتجه المخفي من مشفر الصوت كمدخل ويتنبأ بموجه مستوى الصوت.

تطبيع الطبقة الشرطية

تتكون وحدة فك ترميز mel الخاصة بـ AdaSpeech من الانتباه الذاتي وشبكة التغذية الأمامية استنادًا إلى نموذج Transformer، ونظرًا لاستخدام العديد من المعلمات فيه، فإن عملية الضبط الدقيق للصوت الجديد لن تكون فعالة. لذلك قام المؤلفون بتطبيق تطبيع الطبقة الشرطية على الانتباه الذاتي وشبكة التغذية الأمامية على كل طبقة و قلل عدد المعلمات التي تم تحديثها أثناء الضبط الدقيق عن طريق تحديث المقياس والتحيز المستخدم هنا ليناسب المستخدم. ويُطلق على المقياس والتحيز المستخدمان هنا اسم شرطي لأنهما يمران عبر الطبقة الخطية كما هو موضح في الشكل أعلاه ويتم حساب هذه المتجهات من خلال تضمين السماعات.

عملية التدريب والاستدلال

يمكن تلخيص عملية تدريب AdaSpeech واستنتاج الصوت للمتحدثين الجدد باستخدام الخوارزمية أعلاه. أولاً، قم بتدريب النموذج المصدر مسبقًا بأكبر قدر ممكن من بيانات الكلام النصي، ثم قم بتحديث المعلمات المستخدمة لتطبيع الطبقة الشرطية وتضمين السماعة مع بيانات خطاب المتحدث الجديد من خلال الضبط الدقيق. في الاستدلال، يمكن ملاحظة أن قيمة المعلمة التي يجب حسابها من معلومات المتحدث وقيمة ما لم يتم ضبطه بدقة من خلال التعلم يتم استخدامهما معًا لإنشاء مخطط طيفي.

نتائج التجربة

تقييم جودة الصوت المخصص

تم استخدام MelGAN كمشفر صوتي، وتم تقييم طبيعة الصوت المخصص المركب على أنه MOS، وتم تقييم التشابه على مقياس يسمى SMOS. يمكن ملاحظة أن AdaSpeech يمكنه تجميع أصوات عالية الجودة باستخدام معايير أقل أو مشابهة فقط من خط الأساس. ونظرًا لأن نموذج TTS المصدر قد تم تدريبه مسبقًا لمجموعة بيانات تسمى LibrITTS، بالطبع، يبدو أنه يحصل على أعلى الدرجات عند تكييفه كمتحدث جديد لـ LibrITTS.

دراسة الاجتثاث

باستخدام CMOS (مقارنة MOS)، والتي يمكنها تقييم الجودة النسبية، أجروا دراسة استئصال على التقنيات التي يُزعم أنها مساهمة في هذه الورقة. نظرًا لأن CMOS لـ AdaSpeech، الذي أزال أجزاء معينة، كان أقل من AdaSpeech الأساسي من الجدول 2، يمكننا أن نستنتج أن جميع التقنيات تساهم في تحسين الجودة.

نمذجة الحالة الصوتية التحليل

يوضح الشكل 4 (أ) المتجه الصوتي على مستوى الكلام للمتحدثين المتعلمين في t-SNE. يمكن ملاحظة أن الجمل المختلفة التي ينطق بها نفس المتحدث يتم تصنيفها في نفس المجموعة، ومن هذا المنطلق، يتم الحكم على أن النموذج قد تعلم الخصائص الفريدة لمتحدث واحد عند نطق جملة. تظهر بعض الاستثناءات، ولكن هذه الجمل عادة ما تكون قصيرة أو كلامًا عاطفيًا، مما يجعل من الصعب تمييزها عن كلمات المتحدثين الآخرين.

تطبيع الطبقة الشرطية التحليل

بالمقارنة مع CMOS، يمكن ملاحظة أن جودة الصوت هي الأفضل عند استخدام تطبيع الطبقة الشرطية. لذلك، عند إجراء تطبيع الطبقة، من الأفضل تعديل المقياس والتحيز من خلال عكس خصائص المتحدث، ويمكن تلخيص أن تحديثها فقط له تأثير إيجابي على قدرة النموذج على التكيف.

كمية تحليل البيانات التكيفية

أخيرًا، أجرى المؤلفون تجربة لاختبار مقدار بيانات خطاب المستخدم الجديد المطلوبة لتحديد ما إذا كان هذا النموذج عمليًا. كما يتضح من الشكل 4 (ب)، تتحسن جودة الصوت المركب بسرعة حتى يتم استخدام 10 عينات، ولكن منذ ذلك الحين، لا يوجد تحسن كبير، لذلك لا بأس من ضبط AdaSpeech باستخدام 10 عينات فقط لكل مكبر صوت.

الخاتمة و رأي

AdaSpeech هو نموذج TTS لديه القدرة على التكيف مع المستخدمين الجدد مع الاستفادة الجيدة من مزايا FastSpeech، الذي قام سابقًا بتحسين السرعة من خلال تركيب الكلام المتوازي. تعمل نمذجة الحالة الصوتية على تحسين أداء التعميم للنموذج من خلال التقاط خصائص الصوت، وإذا تم تقسيمه بشكل أكبر، فقد يتم إنشاء ذكاء اصطناعي يتحدث بشكل أكثر تشابهًا مع خصائص المستخدم. بالإضافة إلى ذلك، أعتقد أن قيمة الاستخدام لا حصر لها من حيث أنه نموذج يمكن أن يرضي TTS الصوتي المخصص بـ 10 عينات فقط، ولكن مع ذلك، فمن المؤسف من الناحية العملية أنه يجب استخدام صوت المستخدم والنص المقابل كبيانات للضبط معًا. في الواقع، حتى إذا كان بإمكانك تسجيل صوتك بين أولئك الذين يستخدمون خدمات التوليف الصوتي بالذكاء الاصطناعي، فسيكون هناك المزيد من المستخدمين الذين سيضطرون إلى كتابة النص معًا. لذلك، في الجلسة التالية، سنقدم نسخة معدلة من AdaSpeech تسمح بالتوليف الصوتي المخصص بدون البيانات المقترنة بالكلام النصي.