[Tief drin. Artikel] AdaSpeech2: Adaptives Text-to-Speech mit untranskribierten Daten - DeepBrainAI
Wie das AdaSpeech-Modell, das wir uns das letzte Mal angesehen haben, wurden bei der bestehenden TTS-Adaptionsmethode Text-Sprachpaardaten verwendet, um die Stimmen eines bestimmten Sprechers zu synthetisieren. Da es jedoch praktisch schwierig ist, Daten paarweise aufzubereiten, wird es eine viel effizientere Methode sein, das TTS-Modell nur mit Sprachdaten anzupassen, die nicht transkribiert werden. Der einfachste Zugang besteht darin, das automatische Spracherkennungssystem (ASR) für die Transkription zu verwenden. In bestimmten Situationen ist es jedoch schwierig, es anzuwenden, und die Erkennungsgenauigkeit ist nicht hoch genug, was die endgültige Anpassungsleistung beeinträchtigen kann. Und es gab Versuche, dieses Problem durch gemeinsames Training der TTS-Pipeline und des Anpassungsmoduls zu lösen, was den Nachteil hat, dass es nicht einfach mit anderen kommerziellen TTS-Modellen kombiniert werden kann.