[Tief drin. Artikel] AdaSpeech: Adaptive Text-to-Speech für benutzerdefinierte Stimme - DeepBrainAI

Updated on
July 4, 2024
|
Technology
Published
January 25, 2022
Deep-Learning-Team: Colin
Zusammenfassung

Möglicherweise haben Sie schon einmal erlebt, dass sich die Stimme der geführten Stimme geändert hat, während Sie KI-Lautsprecher oder die Navigation verwendet haben. Ich stelle die Sprecherstimme mit der Stimme meines Lieblingsschauspielers Yoo In-na ein, und es ist wichtig geworden, Sprache mit verschiedenen Stimmen zu synthetisieren, da die Sprachsynthesetechnologie in verschiedene Bereiche des Lebens integriert wurde, z. B. in persönlichen Assistenten, Nachrichtensendungen und Sprachanweisungen. Und es besteht eine wachsende Nachfrage, nicht nur die Stimmen anderer Menschen, sondern auch deren Stimmen als KI-Stimme zu verwenden, was im Bereich der Sprachsyntheseforschung als benutzerdefinierte Sprachsynthese bezeichnet wird.

Heute werden wir uns ein Text-to-Speech (TTS) -Modell namens AdaSpeech ansehen, das für die benutzerdefinierte Sprachsynthese entwickelt wurde. Die Technologie zur Generierung einer benutzerdefinierten Stimme basiert hauptsächlich auf der Anpassung des vorab trainierten TTS-Quellmodells an die Stimme des Benutzers. Die meisten Sprachdaten des Benutzers, die zu diesem Zeitpunkt verwendet werden, sind der Einfachheit halber klein, und da es sich um eine geringe Menge handelt, ist es eine sehr schwierige Aufgabe, dafür zu sorgen, dass sich die generierte Stimme natürlich anfühlt und der Originalstimme ähnelt. Beim Training neuronaler Netze mit maßgeschneiderter Stimme gibt es zwei Hauptprobleme.

Erstens weisen die Stimmen bestimmter Benutzer häufig akustische Bedingungen auf, die sich von den Sprachdaten unterscheiden, die aus dem TTS-Quellmodell gelernt wurden. Beispielsweise gibt es eine Vielzahl von Reimen, Stilen, Emotionen, Stärken und Aufnahmeumgebungen der Sprecher, und daraus resultierende Unterschiede in den Sprachdaten können die Generalisierungsleistung des Quellmodells beeinträchtigen, was zu einer schlechten Anpassungsqualität führt.

Zweitens müssen bei der Anpassung des TTS-Quellmodells an eine neue Stimme Kompromisse bei der Feinabstimmung der Parameter und der Sprachqualität eingegangen werden. Mit anderen Worten, je mehr adaptive Parameter Sie verwenden, desto besser können Sie die Qualität erzeugen, aber desto höher ist der Speicherverbrauch und desto höher sind die Kosten für die Bereitstellung des Modells.

Bisherige Studien gingen dahin, eine Methode zur Feinabstimmung des gesamten Modells oder eines Teils (insbesondere des Decoders) zu spezifizieren, nur die Lautsprechereinbettung, die zur Unterscheidung von Sprechern bei der Sprachsynthese mit mehreren Lautsprechern verwendet wird, das Lautsprecher-Encoder-Modul zu trainieren und davon auszugehen, dass der Bereich der Quellsprache und der adaptiven Daten identisch ist. Bei der tatsächlichen Verwendung gibt es jedoch ein Problem, da zu viele Parameter vorhanden sind oder die Qualität nicht zufriedenstellend ist.

AdaSpeech ist ein TTS-Modell, das effizient Stimmen neuer Benutzer (oder Sprecher) mit hoher Qualität generieren und gleichzeitig die oben genannten Probleme lösen kann. Die Pipeline war größtenteils in drei Phasen unterteilt: Vortraining, Feinabstimmung und Inferenz. Zwei Techniken werden verwendet, um die bestehenden Schwierigkeiten zu lösen. Ab jetzt werden wir sie uns gemeinsam ansehen! 🙂

 

Zusammenfassung für Vielbeschäftigte
  • Die Generalisierungsleistung des Modells wurde verbessert, indem akustische Merkmale für verschiedene Bereiche aus Sprachdaten extrahiert und durch akustische Zustandsmodellierung zu bestehenden Phonemkodierungsvektoren hinzugefügt wurden.
  • Sie haben den Prozess der Anpassung des Quellmodells an die Daten des neuen Lautsprechers mithilfe der bedingten Ebenennormalisierung effizient verbessert.
  • Es ist möglich geworden, hochwertige benutzerdefinierte Stimmen mit weniger Parametern und weniger neuen Sprachdaten als herkömmliche Basismodelle zu erstellen.

 

Struktur des Modells

Das Backbone-Modell von AdaSpeech ist FastSpeech 2. Es besteht größtenteils aus Phonem-Encodern, Varianzadaptern und Mel-Decodern. Es enthält zwei neue Elemente (rosa Bereiche in Abbildung 1), die von den Autoren entwickelt wurden.

 

Akustische Zustandsmodellierung

Im Allgemeinen ist es wichtig, die Generalisierungsleistung des Modells zu erhöhen, da die beim Modelltraining verwendete Quellstimme nicht alle akustischen Merkmale der Stimme des neuen Benutzers abdecken kann. Da es schwierig ist, diese akustischen Merkmale in den Text aufzunehmen, den das Modell in TTS eingibt, ist das Modell dazu übergegangen, sich akustische Merkmale in den Trainingsdaten zu merken, was die Generalisierungsleistung bei der Generalisierung benutzerdefinierter Stimmen behindert. Der einfachste Weg, dieses Problem zu lösen, besteht darin, akustische Merkmale als Eingabe für das Modell bereitzustellen, das in Lautsprecherpegel, Äußerungspegel und Phonempegel unterteilt ist. Dies wird als akustische Zustandsmodellierung bezeichnet und umfasst eine Vielzahl von Klangmerkmalen, von weiträumigen bis hin zu peripheren Informationen. Jede Ebene enthält die folgenden Informationen.

  • Lautsprecherpegel: Ein Pegel, der die allgemeinen Eigenschaften eines Lautsprechers erfasst und den größten Bereich akustischer Eigenschaften darstellt (z. B. Lautsprechereinbettung).
  • Äußerungsebene: Eine Ebene, die Merkmale erfasst, die bei der Aussprache eines Satzes auftreten. Ein Mel-Spektrogramm einer Referenzstimme wird als Eingabe verwendet und ein Merkmalsvektor wird daraus ausgegeben. Beim Training des Modells wird die Zielstimme zur Referenzstimme. Bei der Inferenz wird eine der Stimmen des Sprechers, den Sie synthetisieren möchten, zufällig ausgewählt und als Referenzstimme verwendet.
  • Phonempegel: Der kleinste Pegelbereich, der Merkmale in Phonemeinheiten in einem Satz erfasst (z. B. die Stärke eines bestimmten Phonems, Tonhöhe, Reim und temporäre Umgebungsgeräusche). In diesem Fall wird das Mel-Spektrogramm auf Phonemebene eingegeben, das ausgedrückt wird, indem die Mel-Rahmen, die demselben Phonem entsprechen, durch den Durchschnitt innerhalb des Abschnitts ersetzt werden. Und als Inferenz verwenden wir, obwohl die Struktur dieselbe ist, einen akustischen Prädiktor, der den versteckten Vektor vom Phonem-Encoder als Eingabe empfängt und den Phonem-Level-Vektor vorhersagt.

 

Bedingte Ebenennormalisierung

 

Der Mel-Decoder von AdaSpeech besteht aus Selbstaufmerksamkeits- und Feed-Forward-Netzwerk, das auf dem Transformer-Modell basiert. Da viele Parameter verwendet werden, ist der Prozess der Feinabstimmung auf neue Stimmen nicht effizient. Deshalb wendeten die Autoren eine bedingte Ebenennormalisierung auf das Selbstaufmerksamkeits- und Feed-Forward-Netzwerk auf jeder Ebene an und reduzierte die Anzahl der Parameter, die während der Feinabstimmung aktualisiert wurden, indem die hier verwendete Skala und der Bias an die Bedürfnisse des Benutzers angepasst wurden. Und die hier verwendete Skala und Verzerrung werden als bedingt bezeichnet, weil sie wie in der Abbildung oben durch die lineare Ebene verlaufen und diese Vektoren anhand der Lautsprechereinbettung berechnet werden.

 

Schulungs- und Inferenzprozess

Der Prozess des AdaSpeech-Trainings und der Sprachableitung für neue Sprecher kann mit dem obigen Algorithmus zusammengefasst werden. Trainieren Sie zunächst das Quellmodell mit so vielen Textsprachdaten wie möglich und aktualisieren Sie dann die Parameter, die für die bedingte Ebenennormalisierung und die Sprechereinbettung verwendet werden, durch Feinabstimmung mit den Sprachdaten des neuen Sprechers. Daraus lässt sich schließen, dass der Wert des Parameters, der anhand der Sprecherinformationen berechnet werden muss, und der Wert des Parameters, der nicht durch Lernen optimiert wurde, zusammen verwendet werden, um ein Mel-Spektrogramm zu erstellen.

 

Ergebnisse des Experiments
Individuelle Bewertung der Sprachqualität

 

MelGaN wurde als Vocoder verwendet, und die Natürlichkeit der synthetisierten benutzerdefinierten Stimme wurde als MOS bewertet, und die Ähnlichkeit wurde anhand einer Metrik namens SMOS bewertet. Es ist ersichtlich, dass AdaSpeech qualitativ hochwertige Stimmen mit nur weniger oder ähnlichen Parametern als der Ausgangswert synthetisieren kann. Und da das TTS-Quellmodell für einen Datensatz namens LiBritts vortrainiert wurde, scheint es natürlich die höchste Punktzahl zu erhalten, wenn es als neuer Sprecher von LiBritts adaptiert wird.

 

Ablationsstudie

Mithilfe von CMOS (Comparison MOS), mit dem die relative Qualität bewertet werden kann, führten sie eine Ablationsstudie zu Techniken durch, die in diesem Artikel als Beitrag bezeichnet werden. Da die CMOS von AdaSpeech, bei der bestimmte Teile entfernt wurden, niedriger waren als die grundlegenden AdaSpeech-Werte aus Tabelle 2, können wir den Schluss ziehen, dass alle Techniken zur Qualitätsverbesserung beitragen.

 

Akustische Zustandsmodellierung Analyse

Abbildung 4 (a) zeigt den akustischen Vektor der gelernten Sprecher auf Äußerungsebene in t-SNE. Es ist ersichtlich, dass verschiedene Sätze, die von ein und demselben Sprecher ausgesprochen werden, derselben Gruppe zugeordnet werden. Daraus lässt sich schließen, dass das Modell die einzigartigen Eigenschaften eines Sprechers beim Sprechen eines Satzes gelernt hat. Es gibt einige Ausnahmen, aber diese Sätze sind in der Regel kurz oder emotional, was es schwierig macht, sie von den Äußerungen anderer Sprecher zu unterscheiden.

Bedingte Ebenennormalisierung Analyse

Im Vergleich zu CMOS ist ersichtlich, dass die Sprachqualität bei Verwendung der bedingten Ebenennormalisierung am besten ist. Daher ist es bei der Ebenennormalisierung besser, die Skala und den Bias entsprechend den Eigenschaften des Lautsprechers zu modifizieren. Zusammenfassend lässt sich sagen, dass sich eine alleinige Aktualisierung positiv auf die Anpassungsfähigkeit des Modells auswirkt.

Umfang der adaptiven Datenanalyse

Schließlich führten die Autoren ein Experiment durch, um zu testen, wie viele Sprachdaten neuer Benutzer benötigt werden, um festzustellen, ob dieses Modell praktikabel ist. Wie aus Abbildung 4 (b) hervorgeht, verbessert sich die Qualität der synthetisierten Stimme schnell, bis 10 Samples verwendet werden. Seitdem gibt es jedoch keine signifikante Verbesserung, sodass es in Ordnung ist, die AdaSpeech mit nur 10 Samples für jeden Sprecher fein abzustimmen.

 

Fazit und Meinung

AdaSpeech ist ein TTS-Modell, das sich an neue Benutzer anpassen und gleichzeitig die Vorteile von FastSpeech nutzen kann, das zuvor durch parallele Sprachsynthese die Geschwindigkeit verbessert hat. Die akustische Zustandsmodellierung verbessert die Generalisierungsleistung des Modells, indem die Eigenschaften der Stimme erfasst werden. Bei einer weiteren Unterteilung kann eine KI entwickelt werden, die den Merkmalen des Benutzers ähnlicher spricht. Darüber hinaus denke ich, dass der Nutzen endlos ist, da es sich um ein Modell handelt, das benutzerdefinierte Sprach-TTS mit nur 10 Samples erfüllen kann. Trotzdem ist es aus praktischer Sicht bedauerlich, dass die Stimme des Benutzers und der entsprechende Text als Daten für die gemeinsame Feinabstimmung verwendet werden sollten. Selbst wenn Sie unter denjenigen, die KI-Sprachsynthesedienste nutzen, Ihre Stimme aufnehmen können, wird es mehr Benutzer geben, die sich die Mühe machen, Text zusammen einzugeben. In der nächsten Sitzung werden wir daher eine modifizierte Version von AdaSpeech vorstellen, die eine benutzerdefinierte Sprachsynthese ohne gepaarte Textsprachdaten ermöglicht.

 

Referenz

(1) [FastSpeech 2] FastSpeech 2: Schnelles und qualitativ hochwertiges, durchgängiges Text-to-Speech

(2) [AdaSpeech] AdaSpeech: Adaptive Text-to-Speech für benutzerdefinierte Stimme

(3) [AdaSpeech] https://speechresearch.github.io/adaspeech/

Referenz

(1) [FastSpeech 2-Artikel] FastSpeech 2: Schnelles und qualitativ hochwertiges, durchgängiges Text-to-Speech

(2) [ADA-Redebeitrag] AdaSpeech: Adaptive Text-to-Speech für benutzerdefinierte Stimme

(3) [AdaSpeech-Demo] https://speechresearch.github.io/adaspeech/

Most Read

Most Read

Bleiben wir in Verbindung

Unser Team ist bereit, Sie auf Ihrer virtuellen menschlichen Reise zu unterstützen. Klicken Sie unten, um Kontakt aufzunehmen. In Kürze wird sich jemand mit Ihnen in Verbindung setzen.