[Deep.In. [Artigo] AdaSpeech2: texto adaptável à fala com dados não transcritos - DeepBrainAI
Como o modelo AdaSpeech que analisamos da última vez, o método de adaptação TTS existente usou dados de pares de texto e fala para sintetizar as vozes de um alto-falante específico. No entanto, como é praticamente difícil preparar dados em pares, será uma forma muito mais eficiente de adaptar o modelo TTS somente com dados de fala que não são transcritos. A maneira mais fácil de acessar é usar o sistema de reconhecimento automático de fala (ASR) para transcrição, mas é difícil de aplicar em determinadas situações e a precisão do reconhecimento não é alta o suficiente, o que pode reduzir o desempenho final da adaptação. E houve tentativas de resolver esse problema por meio do treinamento conjunto do pipeline TTS e do módulo de adaptação, o que tem a desvantagem de não poder ser combinado facilmente com outros modelos comerciais de TTS.