[Tief drin. Artikel] Ein Experte für Lippensynchronisierung ist alles, was Sie für die Generierung von Sprache zu Lippen in freier Wildbahn benötigen - DeepBrainAI

Updated on
July 4, 2024
|
Technology
Published
January 25, 2022

Zusammenfassung

Die Lippensynchronisierungstechnologie, die für bestimmte Sprachdaten die richtige Bewegung der Lippen generiert, ist eines der beliebtesten Gebiete im Bereich Deep Learning. Nehmen wir als Beispiel einen Film. Was ist, wenn ein ausländischer Schauspieler nach der Sprache unseres Landes synchronisiert? Wie bei einem Schauspieler, der lange in Korea gelebt hat, wird die Bedeutung von Sprache gut zum Ausdruck gebracht und das Eintauchen wird viel besser sein. Darüber hinaus ist es nicht überraschend, dass in den Nachrichten Politiker aus anderen Ländern mithilfe der Deep-Learning-Technologie Koreanisch sprechen. Daher wird erwartet, dass die natürliche und präzise Lippensynchronisierungstechnologie der zukünftigen Service- und Kommunikationsbranche einen großen Sprung nach vorne bringen wird.

Wie wird die Lippensynchronisierungstechnologie implementiert? Es kann in zwei Hauptschritten erklärt werden. Zunächst lernt das neuronale Netzwerk, die Hauptkoordinaten der Lippenform abzugleichen und mit dem Klang zu synchronisieren.

Dann lernt es, realistische Lippen auf der Grundlage bestimmter Mund-Keypoints zu synthetisieren. Die in diesem Schritt verwendete Technologie ist das Generative Adversarial Network (GAN). Dieses GAN ist eine Art neuronales Netzwerk, das Ausgaben freisetzt, die eine ähnliche Verteilung aufweisen wie zuvor gelernte Datensätze, die bestimmte Merkmale aufweisen.

Nehmen wir ein Beispiel. Wenn die Bank of Korea einem neuronalen Netzwerk die Form oder Farbverteilung der Währung beibringt, wird es in der Lage sein, realistische Falschgeld zu erstellen. Daher lernt das neuronale Netzwerk, realistische Lippenformen von Menschen herzustellen, wenn wir die ungefähren wichtigsten Eckpunkte vermitteln.

Das Netzwerk kann die Technik jedoch nicht einfach erlernen, da die Dinge, die eine realistische Lippenform herstellen und den menschlichen Unterkiefer synthetisieren, sehr komplizierte Aufgaben sind. Insbesondere wenn Sie all diese komplexen Hausaufgaben, um gut zu lernen, verantwortungslos an Ihr Netzwerk weitergeben, ist es leicht zu beobachten, dass der Ton und die Lippen nicht mit unrealistisch synthetisierten Gesichtern übereinstimmen.

 

Hauptbeitrag des Papiers

  1. Ein Netzwerk zur Lippensynchronisation Wav2Lip Eine Struktur, die sich auch unter schwierigen Bedingungen gut für die Spracheingabe eignet, wurde mit modernster Leistung vorgeschlagen.
  2. Benchmark und metrisch wurden vorgeschlagen, die Leistung von Lip-Sync zu bewerten.
  3. Sie sammelten und lieferten einen Datensatz namens Lip-Sync-Bewertung in der realen Welt (reSynced).
  4. Bei der Auswertung des synthetisierten Videos mehr als 90% der getesteten Personen schnitt Wav2Lip besser ab als frühere Lippensynchronisationsmodelle.

Bisherige SOTA-Baseline: LipGAN-Modell

Der Autor zitierte LipGAN [1], das vorherige SOTA-Netzwerk, als Ausgangsbasis. Eine kurze Zusammenfassung lautet wie folgt.

  • Art der Daten
  1. Sprachdaten, die mit der MFCC-Technik (Mel-Frequency Cepstral Coefficient) transformiert wurden.
  2. Bild des Gesichts der zu synthetisierenden Zielperson (Bild unsynchronisieren mit Sprachdaten)
  3. Bild des Gesichts der zu synthetisierenden Zielperson (Die untere Hälfte des Synchronbildes ist abgedeckt)

[Netzwerkmechanismus]

 

  1. Das Audio-Encoder(4 Blöcke), ausgedrückt in roter Farbe, berechnet die MFCC-Daten.
  2. Das Gesichts-Encoder(7 Blöcke), ausgedrückt in blauer Farbe, berechnet das synchronisierte Gesichtsbild (untere Hälfte bedeckt) und das nicht synchronisierte gesamte Gesichtsbild.
  3. Kombinieren Sie den Audio-Einbettungsvektor und den Gesichtseinbettungsvektor, der mit den beiden Encodern erstellt wurde (rote und blaue Farbe).
  4. Die grüne Farbe Gesichtsdecoder(7 Blöcke) synthetisiert das Gesicht aus dem kombinierten Einbettungsvektor. Zu diesem Zeitpunkt sollten Sie die Verbindung überspringen lassen, wie bei U-Net, damit die Gesichtsinformationen gut erhalten bleiben und an den Decoder übertragen werden können. Dieser Dekodierungsprozess fungiert in GAN als Generator. (Zuteilung) L1-Verlust zur Rekonstruktion des Ziels (Ground Truth, Gesichtsbild)
  5. Das synthetisierte Bild und das Ground-Truth-Bild (Gesicht mit Sprachdaten synchronisiert) gelangen in den gelben Face Encoder und ändern ihn durch mehrere Operationen in einen eingebetteten Vektor.
  6. In ähnlicher Weise werden die als Eingabe verwendeten Audio-MFCC-Daten über einen grauen Audio-Encoder (4 Blöcke) in einen Einbettungsvektor umgewandelt.
  7. Kontrastiver Verlust ermöglicht es, dass der Spracheinbettungsvektor und der Gesichtseinbettungsvektor 0 werden, wenn sie nicht synchronisiert sind, und 1, wenn sie synchronisiert sind.

Limitierung

  1. Dem Generator wurden zu viele Aufgaben zugewiesen. Diese Struktur vermittelt die Arbeit, realistische Gesichter zu synthetisieren, die die Identität des Zielmenschen enthüllen können, und die Arbeit, anhand synthetisierter Bilder zu bestimmen, ob die Lippenbewegung synchron ist oder nicht. Mit anderen Worten, studiere nicht nur Mathe und lege eine Matheprüfung ab, sondern studiere Mathematik und Englisch zusammen und lege Prüfungen für zwei Fächer ab. Daher modellieren bestehende Netzwerke wie LipGAN komplexe Aufgaben auf einmal lernen, daher ist es schwierig, geeignete Mundformen zu synthetisieren.
  2. Wenn Sie tatsächlich etwa 20 Epochen mit Lernen verbringen, fast die Hälfte der Epochen ist auf die Gesichtssynthese ausgerichtet, und die Lippensynthese erfolgt erst danach. Daher ist das Erlernen der Lippenform nur ein kleiner Teil des gesamten Lernprozesses. Der Autor wies darauf hin der Verlust rund um den Mund ist 4% weniger leistungsfähig als die Pixelrekonstruktion.
  3. LipGAN synthetisiert nur einen einzigen Frame. In Anbetracht der Tatsache, dass die Form des Mundes tatsächlich von der oben genannten Stimme beeinflusst wird, Bild aus mehreren Einzelbildern synthetisieren wer Vorkenntnisse erlernen kann, ist eher für natürliche Mundbewegungen geeignet.

Wav2Lip Modell

Um die Probleme von LipGan zu verbessern, schlägt der Autor eine Struktur namens Wav2Lip vor.

  • Art der Daten
  1. Sprachdaten, die mit der MFCC-Technik (Mel-Frequency Cepstral Coefficient) transformiert wurden.
  2. Bild des Gesichts der zu synthetisierenden Zielperson (Bild unsynchronisieren mit Sprachdaten)
  3. Bild des Gesichts der zu synthetisierenden Zielperson (Die untere Hälfte des Synchronbildes ist abgedeckt)

 

  • Netzwerkmechanismus
  1. Das Audio-Encoder In grüner Farbe ausgedrückt berechnet die MFCC-Daten.
  2. Das Gesichts-Encoder In blauer Farbe ausgedrückt berechnet das synchronisierte Gesichtsbild (untere Hälfte bedeckt) und das nicht synchronisierte gesamte Gesichtsbild. Im Gegensatz zu LipGAN haben wir mehrere aufeinanderfolgende Frames anstelle eines einzelnen Frames verwendet.
  3. Der Audioeinbettungsvektor und der Gesichtseinbettungsvektor, die von zwei Encodern erstellt wurden, werden kombiniert, um die Dekodierung zu durchlaufen und den Ziel-Ground-Truth-Bilddatensatz zu rekonstruieren. Hier weisen wir L1 Loss für die Rekonstruktion zu.
  1. Generierte Bilder und Ground-Truth-Bilder werden vom Visual Quality Discriminator bewertet, unabhängig davon, ob das Bild realistisch ist oder nicht. es geht nicht um Sprachsynchronisierung, sondern um visuelle Artefakte. Im Gegensatz zu LipGAN binäre Kreuzentropie Es wurde ein Verlust verwendet, kein kontrastreicher Verlust. Sie helfen dabei, visuelle Artefakte unabhängig von der Sprachsynchronisierung zu entfernen und konzentrieren sich ausschließlich auf eine realistische Gesichtssynthese. Es fördert Monsterschüler, die mathematische Probleme lösen können.
  2. Es sollte dem Experten überlassen werden, festzustellen, ob die Synchronisation der Stimme hervorragend ist. Bring das Experte, ein vortrainierter Lip-Sync-Diskriminator, um zu beurteilen, ob die Synchronisation zwischen Ton und Bild stimmt. Der wichtigste Punkt ist, dass Ihr Netzwerk eine zuverlässige Bewertung von einem erfahrenen Experten erhalten muss, da dieser sonst seine Synthesefähigkeiten nicht weiterentwickeln kann. In diesem Artikel plädieren sie für ein intelligentes Netzwerk vor dem Training, das professionell nur Synchronisation unterscheiden kann. Es kann den genauen Synchronisationsverlust zwischen synthetisierten Bild- und Sprachdaten verursachen. Genauer gesagt Verlust der Kosinusähnlichkeit wird der Punktzahl 1 zugewiesen, wenn die Synchronisation stimmt, und 0, wenn sie nicht stimmt.

Bewertungsmetrik

  • Datensatz
  1. GESETZ [4]
  2. LRS [25]
  3. LRS [36]
  • Datensatz
  1. GESETZ [4]
  2. LRS [25]
  3. LRS [36]
  • SyncNet: LSE-D, LSE-C

SyncNet ist ein Netzwerk, das gegründet wurde, um festzustellen, ob ein Video gefälscht ist oder nicht [2]. Wenn Sie die Mundform von Video- und Sprach-MFCC-Daten eingeben, gibt das Netzwerk aus, ob die Entfernung knapp ist, sofern die Synchronisation korrekt ist. Wenn die Synchronisation falsch ist, geben sie eine große Entfernung zwischen Audioeinbettungsvektoren und Videoeinbettungsvektoren aus.

Derzeit wird Lip-Sync Error Distance (LSE-D) als Bewertungselement verwendet, um festzustellen, ob die Bild- und Sprachdatensynchronisierung korrekt ist.

 

 

Wenn Sie einen zeitlichen Versatz zwischen Videobild und Audio angeben, können wir den Abstand zwischen Audio- und Videoeinbettungsvektoren vergleichen. Für den Moment, in dem die Synchronisation übereinstimmt (wo der zeitliche Offset 0 ist), ist der LSE-D klein und der Offset nimmt zu, wodurch sich der Abstand verschiebt. Aus diesem Grund wurde Lip-Sync Error Confidence (LSE-C), eine Art Zuverlässigkeitsindikator, entwickelt, der sicherstellt, dass Bild und Ton entsprechend der Änderung des Entfernungswerts zueinander passen. Sie berechnen die Differenz zwischen dem Medianwert und dem Mindestwert der Entfernung.

 

  • FID (Frachet-Anfangsdistanz)

 

Ergebnisse

1. Temporales Fenster: Einer der großen Unterschiede zu LipGAN von Baseline besteht darin, dass Wav2Lip Multiframes als Eingabe verwendet. Tatsächlich wurde festgestellt, dass sowohl LSE-D als auch LSE-C gute Leistungen zeigten, indem man die Anzahl der Frames erhöhte, als das Wärmefenster zunahm.

 

2. Vortrainierter Discriminator: Durch den Einsatz des Pre-Train Network Expert, mit dem nur die Lippensynchronisation professionell überprüft werden kann, zeigten die LSE-D- und LSE-C-Evaluationselemente eine bessere Leistung als die vorhandenen Speech2Vid [3] - und LipGAN-Modelle. Siehe Wav2Lip (4 Stunden)

 

 

3. Diskriminator für die visuelle Qualität: Im Gegensatz zu LipGAN führte das Hinzufügen eines Diskriminators, der nur Sichtbilder vergleicht, um zwischen echten und falschen Bildern zu unterscheiden, bei LSE-D und LSE-C zu einem leichten Leistungsabfall. In Bezug auf FID ist die visuelle Bildqualität jedoch viel besser. Daher können Sie eine viel realistischere Lippenbewegung ausdrücken. Es erhielt auch viel höhere Präferenz- und Benutzererfahrungswerte. Beziehen Sie sich auf Wav2Lip + GAN (4 Stunden)

 

 

Fazit und Meinung

Es ist ein Netzwerk, das viel genauere Lippensynchronisationsvideos synthetisieren kann als frühere Modelle. Es war beeindruckend, dass es sich nicht auf die Verwendung von Diskriminatoren zur Entfernung visueller Artefakte beschränkte, sondern dass es die Leistung durch im Voraus erlernte Fremddiskriminatoren für eine wesentlich bessere Synchronisation weiter steigerte. Darüber hinaus wurden verschiedene Metriken und Datensätze für die Leistungsbewertung zur Verfügung gestellt, die anhand der Präferenzbewertung und der Nutzererfahrung eine höhere Objektivität und Zuverlässigkeit bewiesen. In naher Zukunft werden Bewegungsdarstellungen wie Gesten und Kopfhaltung hinzukommen, und ein Großteil der Forschungsarbeiten wird bereits durchgeführt. Es wird erwartet, dass sich das Modell der Lippensynchronisation mithilfe von Deep Learning weiterentwickelt und den Menschen als umfassendere Dienstleistung nähert.

 

Referenz

[1] Auf dem Weg zur automatischen Übersetzung von Angesicht zu Angesicht

[2] Aus der Zeit: automatisierter Lippenabgleich in freier Wildbahn

[3] Adaptive Subgradientenmethoden für Online-Lernen und stochastische Optimierung

[4] Lippenlesen in freier Wildbahn

[5] Tiefe audiovisuelle Spracherkennung

[6] LRS3-TED: ein groß angelegter Datensatz für visuelle Spracherkennung

[7] U-Net: Faltungsnetzwerke für biomedizinische Bilder

Most Read

Most Read

Bleiben wir in Verbindung

Unser Team ist bereit, Sie auf Ihrer virtuellen menschlichen Reise zu unterstützen. Klicken Sie unten, um Kontakt aufzunehmen. In Kürze wird sich jemand mit Ihnen in Verbindung setzen.