[Tief drin. Artikel] AdaSpeech2: Adaptives Text-to-Speech mit untranskribierten Daten - DeepBrainAI

Updated on
July 4, 2024
|
Technology
Published
March 2, 2022
Deep-Learning-Team: Colin
Zusammenfassung

Wie das AdaSpeech-Modell, das wir uns das letzte Mal angesehen haben, wurden bei der bestehenden TTS-Adaptionsmethode Text-Sprachpaardaten verwendet, um die Stimmen eines bestimmten Sprechers zu synthetisieren. Da es jedoch praktisch schwierig ist, Daten paarweise aufzubereiten, wird es eine viel effizientere Methode sein, das TTS-Modell nur mit Sprachdaten anzupassen, die nicht transkribiert werden. Der einfachste Zugang besteht darin, das automatische Spracherkennungssystem (ASR) für die Transkription zu verwenden. In bestimmten Situationen ist es jedoch schwierig, es anzuwenden, und die Erkennungsgenauigkeit ist nicht hoch genug, was die endgültige Anpassungsleistung beeinträchtigen kann. Und es gab Versuche, dieses Problem durch gemeinsames Training der TTS-Pipeline und des Anpassungsmoduls zu lösen, was den Nachteil hat, dass es nicht einfach mit anderen kommerziellen TTS-Modellen kombiniert werden kann.

AdaSpeech2 entwirft ein zusätzliches Modul, das jedes TTS-Modell miteinander kombinieren kann, um das Lernen mit untranskribierter Sprache (steckbar) zu ermöglichen. Auf dieser Grundlage schlägt es ein Modell vor, das Ergebnisse liefern kann, die der Leistung des TTS-Modells entsprechen, das vollständig mit Textsprachdaten angepasst ist (effektiv).

Zusammenfassung für Vielbeschäftigte
  • Zusätzliche Module wurden der Struktur von AdaSpeech hinzugefügt, um die Anpassung an bestimmte Sprecher zu induzieren, wobei nur Sprachdaten verwendet wurden.
  • Der latente Raum von Mel Encoder ist so trainiert, dass er dem latenten Raum von Phoneme Encoder ähnelt, sodass Mel Decoder dieselben Funktionen empfangen kann, unabhängig davon, ob die Eingabe in Text oder Sprache erfolgt. Dies eignet sich für Situationen, in denen nur Sprachdaten in das vorab trainierte TTS-Modell eingegeben werden müssen.
  • Die Adaptionsmethode von AdaSpeech2 kann verwendet werden, indem ein beliebiges TTS-Modell angehängt wird. Sie bietet eine ähnliche Leistung wie Modelle, die bestimmte Sprecher mit Text-Sprachpaar-Daten angepasst haben.

Struktur des Modells

AdaSpeech2 verwendet AdaSpeech, das aus einem Phonem-Encoder und einem Mel-Spektrogramm-Decoder besteht, als Backbone-Modell. Die akustische Zustandsmodellierung und die bedingte Layer-Normalisierung werden wie bei der bestehenden AdaSpeech verwendet, sind aber der Einfachheit halber in der obigen Abbildung nicht dargestellt. Fügen Sie hier einen Mel-Spektrogramm-Encoder hinzu, der Sprachdaten empfängt und codiert, und wenden Sie einen L2-Verlust an, damit er dem Ausgang des Phonem-Encoders ähnelt. Der detaillierte Lernprozess wird im Folgenden erläutert.

Schulungs- und Inferenzprozess

Schritt 1. Schulung zum Quellmodell

Zuallererst ist es wichtig, das TTS-Quellmodell gut zu trainieren. Trainiere den Phonem-Encoder und den Mel-Spektrogramm-Decoder des AdaSpeech-Modells mit einer ausreichenden Menge an Text-Sprach-Paaren, wobei die Dauer-Informationen zur Erweiterung der Ausgabe des Phonem-Encoders auf die Länge des Mel-Spektrogramms durch das Montreal Forced Alignment (MFA) gewonnen werden.

Schritt 2. Ausrichtung des Mel-Encoders

Wenn Sie ein gut trainiertes Quellmodell haben, schließen Sie einen Mel-Spektrogramm-Encoder für die untranskribierte Sprachadaption an. Schließlich spielt es eine Rolle bei der Erstellung von Merkmalen, die in den Mel-Spektrogramm-Decoder gelangen, während die Sprache automatisch kodiert wird. Außerdem muss er so eingestellt werden, dass er dem latenten Raum des Phonem-Encoders entspricht, da er dieselbe Ausgabe wie das Merkmal aus den Transkriptionsdaten (Text) ausgeben muss. Wenn wir also wieder mit dem TTS-Lernen unter Verwendung von Text-Sprachdaten fortfahren, erhalten und minimieren wir den L2-Verlust zwischen der Sequenz aus dem Phonem-Encoder und der Sequenz aus dem Mel-Spektrogramm-Encoder, was zur Ausrichtung der latenten Räume zwischen den beiden führt. Derzeit kann diese Methode als steckbar ausgedrückt werden, da sie nicht die gesamte Struktur neu trainiert, sondern die Parameter des Quellmodells festlegt und nur die Parameter des Mel-Spektrogramm-Encoders aktualisiert.

Schritt 3. Untranskribierte Sprachadaption

Passen Sie nun das Modell an, indem Sie nur die (untranskribierten) Sprachdaten des spezifischen Sprechers verwenden, den Sie synthetisieren möchten. Da die eingegebene Sprache über den Mel-Spektrogramm-Encoder und den Mel-Spektrogramm-Decoder wieder in Sprache umgewandelt wird, handelt es sich um eine Sprachwiederherstellungsmethode durch automatische Kodierung, bei der das Quellmodell nur die bedingte Layer-Normalisierung des Mel-Spektrogramm-Decoders aktualisiert und den Rechenaufwand minimiert.

Schritt 4. Inferenz

Sobald alle oben genannten Anpassungsprozesse abgeschlossen sind, kann das Modell nun die Stimme eines bestimmten Sprechers durch einen Phonem-Encoder, der nicht fein abgestimmt wurde, und einen teilweise fein abgestimmten Mel-Spektrogramm-Decoder nachahmen, wenn Text eingegeben wird.

Ergebnisse des Experiments
Anpassung Sprachqualität

In Tabelle 1 ist das gemeinsame Training eine Einstellung, die als Grundlage für dieses Experiment verwendet wird, indem sowohl Phonem-Encoder als auch Mel-Spektrogramm-Encoder gleichzeitig gelernt werden, und die Strategie, Phonem-Encoder und Mel-Spektrogramm nacheinander zu lernen, wird als überlegen bewertet.

Darüber hinaus wurde die Leistung der Adaspech- und PPG-basierten Modelle, die als Backbone verwendet wurden, als Obergrenze für die Leistung von AdaSpeech2 angesehen, weshalb wir ein Experiment durchgeführt haben, um sie miteinander zu vergleichen. Aus den Ergebnissen von MOS und SMOS können wir erkennen, dass AdaSpeech2 Stimmen von fast derselben Qualität synthetisiert wie Modelle, die als Obergrenzen betrachtet wurden.

Analysen zur Anpassungsstrategie

 

Eine Ablationsstudie wurde durchgeführt, um zu bewerten, ob die zuvor im Lernprozess genannten Strategien zur Verbesserung der Leistung des Modells beigetragen haben. Infolgedessen verschlechtert sich die Sprachqualität, wenn der L2-Verlust zwischen dem Ausgang des Phonem-Encoders und dem Mel-Spektrogramm-Encoder aufgehoben wird oder der Mel-Spektrogramm-Encoder bei der Feinabstimmung ebenfalls aktualisiert wird.

 

Variierende Anpassungsdaten

Wenn die Anzahl der adaptiven Sprachdatenproben weniger als 20 beträgt, verbessert sich die Synthesequalität erheblich, wenn die Datenmenge zunimmt, aber wenn sie darüber hinausgeht, wird es keine signifikante Qualitätsverbesserung geben.

 

Fazit und Meinung

Ingenieure für maschinelles Lernen, die TTS-Modelle trainieren, wissen, dass die Qualität von Daten synthetischer Qualität ist, weshalb sie viel Mühe in die Erfassung und Vorverarbeitung von Daten investieren. Und um Stimmen mit neuen Sprechern zu synthetisieren, werden die Sprachdateien neuer Sprecher und der transkribierte Text paarweise gesammelt, um das TTS-Modell von Grund auf neu zu trainieren. Mit der AdaSpeech2-Methode müssen jedoch nur Daten gesammelt und das Modell optimiert werden. Ein weiterer Vorteil ist, dass es in der Realität einfach anzuwenden ist, da es mit jedem TTS-Modell kombiniert werden kann.

Wenn wir mit der weiteren Forschung in AdaSpeech2 fortfahren, könnte es ein interessantes Thema sein, die daraus resultierenden Leistungsänderungen zu beobachten, indem wir neue Distanzfunktionen wie Kosinusähnlichkeit als Einschränkungen anstelle von L2-Verlust verwenden.

Beim nächsten Mal werden wir Zeit haben, den letzten Artikel der AdaSpeech-Reihe vorzustellen.

Referenz

(1) [AdaSpeech2-Papier] AdaSpeech 2: Adaptives Text-to-Speech mit untranskribierten Daten

(2) [AdaSpeech2-Demo] https://speechresearch.github.io/adaspeech2/

 

Most Read

Most Read

Bleiben wir in Verbindung

Unser Team ist bereit, Sie auf Ihrer virtuellen menschlichen Reise zu unterstützen. Klicken Sie unten, um Kontakt aufzunehmen. In Kürze wird sich jemand mit Ihnen in Verbindung setzen.