[Au plus profond. [Article] AdaSpeech2 : synthèse vocale adaptative avec données non transcrites - DeepBrainai

Updated on
July 5, 2024
|
Technology
Published
March 2, 2022
Équipe de Deep Learning : Colin
Résumé

À l'instar du modèle AdaSpeech que nous avons examiné la dernière fois, la méthode d'adaptation TTS existante utilise des données de paires texte-parole pour synthétiser les voix d'un locuteur spécifique. Cependant, comme il est pratiquement difficile de préparer des données par paires, ce sera un moyen beaucoup plus efficace d'adapter le modèle TTS uniquement aux données vocales qui ne sont pas transcrites. Le moyen le plus simple d'y accéder est d'utiliser le système de reconnaissance automatique de la parole (ASR) pour la transcription, mais il est difficile à appliquer dans certaines situations et la précision de reconnaissance n'est pas suffisamment élevée, ce qui peut réduire les performances d'adaptation finales. Et des tentatives ont été faites pour résoudre ce problème en formant conjointement le pipeline TTS et le module d'adaptation, ce qui présente l'inconvénient de ne pas pouvoir être facilement combiné avec d'autres modèles TTS commerciaux.

AdaSpeech2 conçoit un module supplémentaire capable de combiner n'importe quel modèle TTS pour permettre l'apprentissage avec de la parole non transcrite (enfichable), et à partir de là, il propose un modèle capable de produire des résultats équivalents aux performances du modèle TTS entièrement adapté aux données texte-parole (efficace).

Résumé pour Busy People
  • Des modules supplémentaires ont été attachés à la structure d'ADAspeech pour induire une adaptation à des locuteurs spécifiques en utilisant uniquement des données vocales.
  • L'espace latent de Mel Encoder est entraîné pour être similaire à l'espace latent de Phoneme Encoder, de sorte que Mel Decoder peut recevoir les mêmes fonctionnalités, que l'entrée soit sous forme de texte ou de parole. Cela convient aux situations où seules les données vocales doivent être entrées dans le modèle TTS pré-entraîné.
  • La méthode d'adaptation d'ADAspeech2 peut être utilisée en connectant n'importe quel modèle TTS et peut produire des performances similaires à celles des modèles qui ont adapté certains haut-parleurs avec des données de paires texte-parole.

Structure du modèle

AdaSpeech2 utilise AdaSpeech, qui se compose d'un encodeur de phonèmes et d'un décodeur de spectrogramme Mel, comme modèle de base. La modélisation des conditions acoustiques et la normalisation conditionnelle des couches sont utilisées comme l'ADAspeech existant, mais ne sont pas exprimées dans la figure ci-dessus pour des raisons de simplicité. Ajoutez ici un encodeur à spectrogramme Mel qui reçoit et code les données vocales, et appliquez la perte L2 pour les rendre similaires à la sortie du codeur de phonèmes. Le processus d'apprentissage détaillé sera expliqué ci-dessous.

Processus de formation et d'inférence

Étape 1 Formation sur le modèle source

Tout d'abord, il est important de bien entraîner le modèle TTS source. Entraînez l'encodeur de phonèmes et le décodeur de spectrogramme Mel du modèle ADAspeech avec un nombre suffisant de paires texte-parole, où les informations de durée permettant d'étendre la sortie du codeur de phonèmes à la longueur du spectrogramme MEL sont obtenues grâce à l'alignement forcé de Montréal (MFA).

Étape 2 Alignement de l'encodeur Mel

Si vous disposez d'un modèle source bien entraîné, connectez un encodeur Mel-spectrogram pour une adaptation vocale non transcrite. Enfin, il joue un rôle dans la création de fonctionnalités qui entreront dans le décodeur Mel-spectrogram lors du codage automatique de la parole, et il doit être identique à l'espace latent de l'encodeur du phonème car il doit générer la même sortie que la caractéristique des données de transcription (texte). Ainsi, au fur et à mesure que nous procédons à l'apprentissage TTS à l'aide de données textuelles et vocales, nous obtenons et minimisons la perte de L2 entre la séquence du codeur de phonèmes et la séquence de l'encodeur Mel-spectrogramme, ce qui entraîne l'alignement des espaces latents entre les deux. À l'heure actuelle, cette méthode peut être qualifiée d'enfichable car elle ne réentraîne pas l'ensemble de la structure, mais fixe les paramètres du modèle source et met à jour uniquement les paramètres de l'encodeur du spectrogramme Mel.

Étape 3 Adaptation de la parole non transcrite

Ajustez maintenant le modèle en utilisant uniquement les données vocales (non transcrites) du haut-parleur spécifique que vous souhaitez synthétiser. Étant donné que la parole d'entrée est synthétisée en parole via un encodeur de spectrogramme Mel et un décodeur de spectrogramme Mel, il s'agit d'une méthode de restauration de la parole par encodage automatique, dans laquelle le modèle source met à jour uniquement la normalisation de couche conditionnelle du décodeur de spectrogramme Mel et minimise les calculs.

Étape 4 Inférence

Une fois tous les processus d'adaptation ci-dessus terminés, le modèle peut désormais imiter la voix d'un locuteur particulier à l'aide d'un encodeur de phonèmes qui n'a pas été réglé avec précision et d'un décodeur mel-spectrogramme partiellement réglé lorsque le texte est saisi.

Résultats de l'expérience
Qualité de la voix d'adaptation

Dans le tableau 1, l'entraînement conjoint est un paramètre utilisé comme base de référence dans cette expérience en apprenant à la fois des codeurs de phonèmes et des codeurs de spectrogramme Mel en même temps, et la stratégie consistant à apprendre les codeurs de phonèmes et le spectrogramme Mel dans l'ordre est jugée supérieure.

De plus, les performances des modèles basés sur Adaspech et PPG utilisés comme backbone étaient considérées comme la limite supérieure des performances d'AdaSpeech2, nous avons donc mené une expérience pour les comparer. D'après les résultats de MOS et SMOS, nous pouvons voir qu'AdaSpeech2 synthétise des voix d'une qualité presque identique à celle des modèles considérés comme des limites supérieures.

Analyses de la stratégie d'adaptation

 

Une étude d'ablation a été menée pour évaluer si les stratégies mentionnées plus tôt dans le processus d'apprentissage contribuaient à l'amélioration des performances du modèle. Par conséquent, la qualité de la voix se détériore si la perte de L2 est supprimée entre la sortie du codeur de phonèmes et l'encodeur de spectrogramme Mel, ou si le codeur de spectrogramme Mel est également mis à jour lors de l'étape de réglage fin.

 

Données d'adaptation variables

Lorsque le nombre d'échantillons de données vocales adaptatives est inférieur à 20, la qualité de la synthèse s'améliore de manière significative à mesure que la quantité de données augmente, mais si elle dépasse ce nombre, il n'y aura pas d'amélioration significative de la qualité.

 

Conclusion et avis

Les ingénieurs en apprentissage automatique qui forment des modèles TTS savent que la qualité des données est de qualité synthétique. Ils consacrent donc beaucoup d'efforts à la collecte et au prétraitement des données. Et afin de synthétiser les voix avec de nouveaux locuteurs, les fichiers vocaux et le texte transcrit des nouveaux locuteurs sont collectés par paires pour réentraîner le modèle TTS à partir de zéro, mais en utilisant la méthode AdaSpeech2, les données doivent uniquement être collectées et le modèle doit être affiné. Un autre avantage est qu'il est facile à appliquer dans la réalité car il peut être combiné avec n'importe quel modèle TTS.

Si nous poursuivons nos recherches dans ADASpeech2, il pourrait être intéressant d'observer les changements de performances qui en résultent en utilisant de nouvelles fonctions de distance telles que la similarité des cosinus comme contraintes au lieu de la perte L2.

La prochaine fois, nous aurons le temps de présenter le dernier article de la série AdaSpeech.

Référence

(1) [Article ADASpeech2] AdaSpeech 2 : synthèse vocale adaptative avec données non transcrites

(2) [Démo d'AdaSpeech2] https://speechresearch.github.io/adaspeech2/

 

Most Read

Most Read

Restons connectés

Notre équipe est prête à vous accompagner dans votre parcours humain virtuel. Cliquez ci-dessous pour nous contacter et quelqu'un vous contactera sous peu.