[Deep.In. Articolo] AdaSpeech2: sintesi vocale adattiva con dati non trascritti - DeepBrainAI
Come il modello AdaSpeech che abbiamo esaminato l'ultima volta, il metodo di adattamento TTS esistente ha utilizzato dati di coppia testo-voce per sintetizzare le voci di uno specifico oratore. Tuttavia, poiché è praticamente difficile preparare i dati in coppia, sarà un modo molto più efficiente per adattare il modello TTS solo con dati vocali non trascritti. Il modo più semplice per accedervi è utilizzare il sistema di riconoscimento vocale automatico (ASR) per la trascrizione, ma è difficile da applicare in determinate situazioni e la precisione del riconoscimento non è sufficientemente elevata, il che può ridurre le prestazioni di adattamento finale. E si è cercato di risolvere questo problema addestrando congiuntamente la pipeline TTS e il modulo di adattamento, il che presenta lo svantaggio di non poter essere facilmente combinato con altri modelli TTS commerciali.