[Au plus profond. [Article] Un expert en synchronisation labiale est tout ce dont vous avez besoin pour générer de la parole aux lèvres dans la nature - DeepBrainai

Updated on
July 5, 2024
|
Technology
Published
January 25, 2022

Résumé

La technologie de synchronisation labiale, qui génère le bon mouvement des lèvres pour une donnée vocale donnée, est l'un des domaines les plus populaires de l'apprentissage profond. Prenons un film comme exemple. Et si un acteur étranger doublait selon la langue de notre pays ? Comme un acteur qui a longtemps vécu en Corée, le sens de la parole sera bien exprimé et l'immersion sera bien meilleure. De plus, il n'est pas surprenant que les actualités montrent des politiciens d'autres pays s'exprimant en coréen grâce à une technologie d'apprentissage profond. Par conséquent, la technologie de synchronisation labiale naturelle et précise devrait permettre de faire un grand pas en avant dans le futur secteur des services et de la communication.

Comment la technologie de synchronisation labiale sera-t-elle mise en œuvre ? Elle peut être expliquée en deux étapes principales. Tout d'abord, le réseau neuronal apprend à faire correspondre les coordonnées principales de la forme des lèvres en se synchronisant avec le son.

Ensuite, il apprend à synthétiser un ensemble réaliste de points clés de la bouche en fonction des lèvres. La technologie utilisée à cette étape est le Generative Adversarial Network (GAN). Ce GAN est un type de réseau neuronal qui émet des sorties ayant une distribution similaire à celle d'un ensemble de données appris antérieurement qui présente certaines caractéristiques.

Prenons un exemple. Si la Banque de Corée enseigne à un réseau neuronal la forme ou la distribution des couleurs de la monnaie, elle sera en mesure de créer un faux billet réaliste. Par conséquent, le réseau neuronal apprend à créer des formes réalistes de lèvres humaines si nous enseignons les principaux points clés approximatifs.

Cependant, le réseau ne peut pas facilement apprendre la technique car les éléments qui permettent de donner une forme réaliste aux lèvres et de synthétiser la mâchoire inférieure humaine sont des tâches très compliquées. En particulier, si vous transmettez de manière irresponsable tous ces devoirs complexes pour bien apprendre à votre réseau, il est facile de constater que le son et les lèvres ne correspondent pas à des visages synthétisés de manière irréaliste.

 

Contribution principale du papier

  1. Un réseau de synchronisation labiale Lèvres Wav2 Une structure qui fonctionne bien pour la saisie vocale même dans des conditions difficiles a été proposée avec des performances de pointe.
  2. Point de référence et métrique ont été proposés pour évaluer les performances de la synchronisation labiale.
  3. Ils ont collecté et fourni un ensemble de données appelé Évaluation de la synchronisation labiale dans le monde réel (ReSynced).
  4. Lors de l'évaluation de la vidéo synthétisée, plus de 90 % des personnes évaluées, Wav2Lip a obtenu de meilleurs résultats que les modèles de synchronisation labiale précédents.

Base de référence SOTA précédente : modèle LipGaN

L'auteur a cité LipGaN [1], l'ancien réseau SOTA, comme base de référence. Voici un bref résumé.

  • Type de données
  1. Données vocales transformées par la technique MFCC (Mel-Frequency Cepstral Coefficient).
  2. Image du visage de la personne cible à synthétiser (image désynchronisée (avec données vocales)
  3. Image du visage de la personne cible à synthétiser (la moitié inférieure de l'image de synchronisation est recouverte)

[Mécanisme de réseau]

 

  1. Le Encodeur audio(4 blocs) exprimés en rouge calcule les données MFCC.
  2. Le Encodeur facial(7 blocs) exprimés en bleu calcule l'image du visage synchronisée (moitié inférieure recouverte) et l'image du visage entier non synchronisée.
  3. Combinez le vecteur d'intégration audio et le vecteur d'intégration faciale créés par les deux encodeurs (couleur rouge et bleu).
  4. La couleur verte Décodeur de visage(7 blocs) synthétise le visage à partir d'un vecteur d'intégration combiné. À ce stade, continuez à ignorer la connexion comme U-Net afin que les informations sur le visage puissent être bien préservées et transmises au décodeur. Ce processus de décodage agit comme un générateur dans le GAN. (allocation Défaite en L1 pour reconstruire le sol cible (vérité, image de visage)
  5. L'image synthétisée et l'image de base (visage synchronisé avec les données vocales) entrent dans le Face Encoder jaune et la transforment en vecteur intégré en plusieurs opérations.
  6. De même, les données audio MFCC utilisées en entrée sont transformées en un vecteur d'intégration via un encodeur audio gris (4 blocs).
  7. Perte contrastive permet au vecteur d'intégration vocale et au vecteur d'intégration faciale de devenir 0 s'ils ne sont pas synchronisés et 1 s'ils sont synchronisés.

Limitation

  1. Un nombre excessif de tâches ont été assignées au générateur. Cette structure enseigne le travail de synthèse de visages réalistes qui peuvent révéler l'identité de l'humain cible et le travail qui consiste à déterminer si le mouvement des lèvres est synchronisé ou non grâce à des images de synthèse. En d'autres termes, non seulement étudiez les mathématiques et passez un examen de mathématiques, mais étudiez les mathématiques et l'anglais ensemble et passez des examens pour deux matières. Par conséquent, les réseaux existants tels que le modèle LipGaN apprendre des tâches complexes à la fois, il est donc difficile de synthétiser des formes de bouche appropriées.
  2. Si vous passez environ 20 époques à apprendre, près de la moitié des époques sont biaisées en faveur de la synthèse faciale, et la synthèse labiale ne se fait qu'après cela. Par conséquent, l'apprentissage de la forme des lèvres n'est qu'une partie de l'ensemble du processus d'apprentissage. L'auteur a fait remarquer que la perte autour de la bouche est inférieure de 4 % aux performances que la reconstruction des pixels.
  3. LipGaN ne synthétise qu'une seule trame. Cependant, étant donné que la forme de la bouche est effectivement affectée par la voix susmentionnée, synthèse d'une image à partir de plusieurs images qui peut acquérir des connaissances préalables est plus approprié pour les mouvements naturels de la bouche.

Modèle Wav2Lip

Pour améliorer les problèmes de LipGaN, l'auteur propose une structure appelée Wav2Lip.

  • Type de données
  1. Données vocales transformées par la technique MFCC (Mel-Frequency Cepstral Coefficient).
  2. Image du visage de la personne cible à synthétiser (image désynchronisée (avec données vocales)
  3. Image du visage de la personne cible à synthétiser (la moitié inférieure de l'image de synchronisation est recouverte)

 

  • Mécanisme de réseau
  1. Le Encodeur audio exprimé en vert calcule les données MFCC.
  2. Le Encodeur facial exprimé en bleu, calcule l'image du visage synchronisée (moitié inférieure recouverte) et l'image du visage entier non synchronisée. Contrairement à LipGaN, nous avons utilisé plusieurs images consécutives au lieu d'une seule image.
  3. Le vecteur d'intégration audio et le vecteur d'intégration faciale créés par deux encodeurs sont combinés pour passer par le décodage et reconstruire l'ensemble d'images de vérité du sol cible. Ici, nous attribuons la perte L1 à la reconstruction.
  1. Les images générées et les images réelles du terrain sont évaluées par Visual Quality Discriminator, que l'image soit réaliste ou non, à propos non pas de la synchronisation vocale mais des artefacts visuels. Contrairement à LipGaN, entropie croisée binaire la perte a été utilisée, et non la perte contrastive. Ils aident à supprimer les artefacts visuels indépendamment de la synchronisation vocale et se concentrent uniquement sur une synthèse faciale réaliste. Il encourage un élève monstre capable de résoudre des problèmes de mathématiques.
  2. C'est à l'expert de déterminer si la synchronisation de la voix est excellente. Apportez le Expert, un discriminateur Lip-Sync pré-entraîné, pour évaluer si la synchronisation entre le son et l'image est correcte. L'essentiel est que votre réseau doit obtenir un score fiable de la part d'un expert expérimenté, sinon il ne pourra pas développer ses compétences de synthèse. Dans cet article, ils soutiennent la mise en place d'un réseau pré-train intelligent capable de discriminer de manière professionnelle uniquement la synchronisation. Il peut effectuer une perte de synchronisation précise entre l'image synthétisée et les données vocales. Plus précisément, perte de similarité en cosinus est attribué à un score de 1 si la synchronisation est correcte et à 0 si elle n'est pas correcte.

Métrique d'évaluation

  • Ensemble de données
  1. GAUCHE [4]
  2. LRS2 [5]
  3. LRS3 [6]
  • Ensemble de données
  1. GAUCHE [4]
  2. LRS2 [5]
  3. LRS3 [6]
  • SyncNet : LSE-D, LSE-C

SyncNet est un réseau qui a vu le jour pour déterminer si une vidéo est fausse ou non [2]. Lorsque vous saisissez la forme de la bouche des données MFCC vidéo et vocales, le réseau émet une distance proche si la synchronisation est correcte. Si la synchronisation est incorrecte, ils produisent une distance éloignée entre les vecteurs d'intégration audio et les vecteurs d'intégration vidéo.

À l'heure actuelle, la distance d'erreur de synchronisation labiale (LSE-D) est utilisée comme élément d'évaluation pour déterminer si la synchronisation des données de trame et de voix est correcte.

 

 

Si vous indiquez un décalage temporel entre l'image vidéo et le son, nous pouvons comparer la distance entre les vecteurs d'intégration audio et vidéo. Au moment où la synchronisation correspond (où le décalage temporel est égal à 0), le LSE-D est faible et le décalage augmente, ce qui entraîne un éloignement de la distance. Par conséquent, le Lip-Sync Error Confidence (LSE-C), une sorte d'indicateur de fiabilité, est apparu pour montrer que la vidéo et le son sont synchronisés en fonction de la variation de la valeur de distance. Ils calculent la différence entre la valeur médiane et la valeur minimale de la distance.

 

  • FID (distance initiale de la fracture)

 

Résultats

1. Fenêtre temporelle : L'une des grandes différences par rapport au LipGAN de Baseline est que Wav2Lip utilise plusieurs images comme entrée. En fait, grâce à l'apprentissage en augmentant le nombre de trames, il a été constaté que le LSE-D et le LSE-C affichaient de bonnes performances à mesure que la fenêtre thermique augmentait.

 

2. Discriminateur pré-entraîné : grâce à l'utilisation du réseau Expert pré-entraînement, qui permet de vérifier uniquement la synchronisation labiale de manière professionnelle, les éléments d'évaluation LSE-D et LSE-C ont montré de meilleures performances que les modèles Speech2Vid [3] et LipGaN existants. Reportez-vous à Wav2Lip (4 heures)

 

 

3. Discriminateur de qualité visuelle : Contrairement au LipGaN, l'ajout d'un discriminateur qui compare uniquement les images visuelles pour déterminer les images réelles ou fausses a entraîné une légère diminution des performances du LSE-D et du LSE-C, mais en termes de FID, la qualité de l'image visuelle est bien meilleure. Par conséquent, vous pouvez exprimer un mouvement des lèvres beaucoup plus réaliste. Il a également obtenu des scores de préférence et d'expérience utilisateur beaucoup plus élevés. Reportez-vous à Wav2Lip + GAN (heures)

 

 

Conclusion et avis

Il s'agit d'un réseau capable de synthétiser des vidéos de synchronisation labiale beaucoup plus précises que les modèles précédents. Il était impressionnant de constater qu'il ne se limitait pas à l'utilisation de discriminateurs pour supprimer les artefacts visuels, mais qu'il améliorait encore les performances grâce à des discriminateurs externes appris à l'avance pour une bien meilleure synchronisation. En outre, divers paramètres et ensembles de données ont été fournis pour l'évaluation des performances, et ils ont prouvé une objectivité et une fiabilité accrues grâce au score de préférence obtenu grâce à l'expérience utilisateur. Dans un avenir proche, la présentation de mouvements tels que les gestes et la pose de la tête sera ajoutée, et une grande partie de la recherche est déjà en cours. On s'attend à ce que le modèle de synthèse de synchronisation labiale grâce à l'apprentissage en profondeur se développe davantage et aborde les humains comme un service plus riche.

 

Référence

[1] Vers une traduction automatique en face à face

[2] Hors du temps : synchronisation labiale automatique dans la nature

[3] Méthodes adaptatives de sous-gradient pour l'apprentissage en ligne et l'optimisation stochastique

[4] Lecture labiale dans la nature

[5] Reconnaissance vocale audiovisuelle approfondie

[6] LRS3-TED : un ensemble de données à grande échelle pour la reconnaissance vocale visuelle

[7] U-Net : Réseaux convolutifs pour l'imagerie biomédicale

Most Read

Most Read

Restons connectés

Notre équipe est prête à vous accompagner dans votre parcours humain virtuel. Cliquez ci-dessous pour nous contacter et quelqu'un vous contactera sous peu.