[Au plus profond. [Article] AdaSpeech2 : synthèse vocale adaptative avec données non transcrites - DeepBrainai
À l'instar du modèle AdaSpeech que nous avons examiné la dernière fois, la méthode d'adaptation TTS existante utilise des données de paires texte-parole pour synthétiser les voix d'un locuteur spécifique. Cependant, comme il est pratiquement difficile de préparer des données par paires, ce sera un moyen beaucoup plus efficace d'adapter le modèle TTS uniquement aux données vocales qui ne sont pas transcrites. Le moyen le plus simple d'y accéder est d'utiliser le système de reconnaissance automatique de la parole (ASR) pour la transcription, mais il est difficile à appliquer dans certaines situations et la précision de reconnaissance n'est pas suffisamment élevée, ce qui peut réduire les performances d'adaptation finales. Et des tentatives ont été faites pour résoudre ce problème en formant conjointement le pipeline TTS et le module d'adaptation, ce qui présente l'inconvénient de ne pas pouvoir être facilement combiné avec d'autres modèles TTS commerciaux.