[En lo profundo. Artículo] AdaSpeech2: Adaptación de texto a voz con datos no transcritos - DeepBrainAI
Al igual que el modelo AdaSpeech que analizamos la última vez, el método de adaptación TTS existente ha utilizado datos de pares de texto y voz para sintetizar las voces de un hablante específico. Sin embargo, dado que es prácticamente difícil preparar los datos en pares, será una forma mucho más eficiente de adaptar el modelo TTS solo con datos de voz que no estén transcritos. La forma más sencilla de acceder es utilizar el sistema de reconocimiento automático de voz (ASR) para la transcripción, pero es difícil de aplicar en determinadas situaciones y la precisión del reconocimiento no es lo suficientemente alta, lo que puede reducir el rendimiento de la adaptación final. Además, se ha intentado resolver este problema mediante la formación conjunta del sistema TTS y del módulo de adaptación, lo que tiene la desventaja de que no se puede combinar fácilmente con otros modelos comerciales de TTS.