[Deep.In. Articolo] Un esperto di sincronizzazione labiale è tutto ciò di cui hai bisogno per Speech to Lip Generation In The Wild - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
January 25, 2022

Astratto

La tecnologia di sincronizzazione labiale, che genera il giusto movimento delle labbra per un determinato dato vocale, è uno dei campi più diffusi nel deep learning. Prendiamo un film come esempio. E se un attore straniero doppiasse secondo la lingua del nostro paese? Come un attore che ha vissuto a lungo in Corea, il significato della parola sarà espresso bene e l'immersione sarà molto migliore. Inoltre, non sorprende che le notizie mostrino politici di altri paesi che parlano in coreano attraverso la tecnologia di deep learning. Pertanto, si prevede che la tecnologia di sincronizzazione labiale naturale e accurata rappresenti un grande passo avanti per il futuro settore dei servizi e delle comunicazioni.

Come verrà implementata la tecnologia di sincronizzazione labiale? Può essere spiegato in due fasi principali. Innanzitutto, la rete neurale impara a far corrispondere le coordinate principali della forma del labbro sincronizzandole con il suono.

Quindi, impara a sintetizzare realisticamente le labbra in base a un determinato insieme di punti chiave della bocca. La tecnologia utilizzata in questa fase è la Generative Adversarial Network (GAN). Questo GAN è un tipo di rete neurale che rilascia output con una distribuzione simile a un set di dati appreso in precedenza che presenta determinate caratteristiche.

Facciamo un esempio. Se la Bank of Korea insegnasse alla rete neurale la distribuzione della forma o del colore della valuta, sarà in grado di creare banconote contraffatte realistiche. Pertanto, la rete neurale impara a creare forme realistiche delle labbra umane se insegniamo i principali punti chiave approssimativi.

Tuttavia, la rete non può apprendere facilmente la tecnica perché le cose che rendono realistica la forma delle labbra e sintetizzano la mascella inferiore umana sono compiti molto complicati. In particolare, se trasmetti irresponsabilmente tutti questi compiti complessi per imparare bene alla tua rete, è facile osservare che il suono e le labbra non corrispondono a volti sintetizzati in modo irrealistico.

 

Contributo principale della carta

  1. Una rete di sincronizzazione labiale Wav2 Lip Una struttura che funziona bene per l'input vocale anche in condizioni difficili è stata proposta con prestazioni all'avanguardia.
  2. Benchmark e metrico sono stati proposti per valutare le prestazioni della sincronizzazione labiale.
  3. Hanno raccolto e fornito un set di dati chiamato Valutazione della sincronizzazione labiale nel mondo reale (ReSynced).
  4. Quando si valuta il video sintetizzato, oltre il 90% delle persone valutate Wav2Lip ha ottenuto risultati migliori rispetto ai precedenti modelli di sincronizzazione labiale.

Precedente: SOTA Baseline: modello LipGAN

L'autore ha citato LipGAN [1], la precedente rete SOTA, come riferimento. Di seguito è riportato un breve riassunto.

  • Tipo di dati
  1. Dati vocali trasformati mediante tecnica MFCC (Mel-Frequency Cepstral Coefficient).
  2. Immagine del volto della persona bersaglio da sintetizzare (annullare la sincronizzazione dell'immagine con dati vocali)
  3. Immagine del volto della persona bersaglio da sintetizzare (la metà inferiore dell'immagine di sincronizzazione è coperta)

[Meccanismo di rete]

 

  1. Le Codificatore audio(4 blocchi) espresso in rosso calcola i dati MFCC.
  2. Le Encoder facciale(7 blocchi) espresso in colore blu calcola l'immagine del viso sincronizzata (metà inferiore coperta) e l'immagine del viso intero non sincronizzata.
  3. Combina il vettore di incorporamento audio e il vettore di incorporamento facciale creato tramite i due codificatori (colore rosso e blu).
  4. Il colore verde Decodificatore facciale(7 blocchi) sintetizza la faccia dal vettore di incorporamento combinato. A questo punto, salta la connessione come U-Net in modo che le informazioni sul viso possano essere conservate al meglio e inviate al decodificatore. Questo processo di decodifica funge da generatore in GAN. (allocazione Perdita L1 per ricostruire il terreno bersaglio (verità, immagine del volto)
  5. L'immagine sintetizzata e l'immagine di base (faccia sincronizzata con i dati vocali) entrano nel Face Encoder giallo e lo trasformano in un vettore di incorporamento tramite diverse operazioni.
  6. Allo stesso modo, i dati audio MFCC utilizzati come input vengono inseriti in un vettore di incorporamento tramite un codificatore audio grigio (4 blocchi).
  7. Perdita contrastiva consente al vettore di incorporamento vocale e al vettore di incorporamento del volto di diventare 0 se non sono sincronizzati e 1 se sono sincronizzati.

Limitazione

  1. Al generatore è stata assegnata una quantità eccessiva di compiti. Questa struttura insegna a sintetizzare volti realistici in grado di rivelare l'identità umana bersaglio e a determinare se il movimento delle labbra è sincronizzato o meno attraverso immagini sintetizzate. In altre parole, non basta studiare matematica e sostenere un esame di matematica, ma studiare matematica e inglese insieme e sostenere gli esami per due materie. Pertanto, reti esistenti come il modello LipGAN impara compiti complessi contemporaneamente, quindi è difficile sintetizzare le forme appropriate della bocca.
  2. Se effettivamente dedichi circa 20 epoche all'apprendimento, quasi la metà delle epoche è orientata verso la sintesi faccialee la sintesi delle labbra avviene solo dopo. Pertanto, l'apprendimento della forma delle labbra è solo una parte dell'intero processo di apprendimento. L'autore ha sottolineato che la perdita intorno alla bocca è inferiore del 4% nelle prestazioni rispetto alla ricostruzione dei pixel.
  3. LipGAN sintetizza un solo fotogramma. Tuttavia, considerando che la forma della bocca è effettivamente influenzata dalla suddetta voce, sintetizzazione di immagini da più fotogrammi in grado di apprendere conoscenze pregresse è più appropriato per i movimenti naturali della bocca.

Modello Wav2Lip

Per migliorare i problemi di LipGAN, l'autore propone una struttura chiamata Wav2Lip.

  • Tipo di dati
  1. Dati vocali trasformati mediante tecnica MFCC (Mel-Frequency Cepstral Coefficient).
  2. Immagine del volto della persona bersaglio da sintetizzare (annullare la sincronizzazione dell'immagine con dati vocali)
  3. Immagine del volto della persona bersaglio da sintetizzare (la metà inferiore dell'immagine di sincronizzazione è coperta)

 

  • Meccanismo di rete
  1. Le Codificatore audio espresso in colore verde calcola i dati MFCC.
  2. Le Encoder facciale espresso in colore blu calcola l'immagine del viso sincronizzata (metà inferiore coperta) e l'immagine del viso intero non sincronizzata. A differenza di LipGAN, abbiamo usato diversi fotogrammi consecutivi invece di un singolo fotogramma.
  3. Il vettore di incorporamento audio e il vettore di incorporamento facciale realizzati da due codificatori vengono combinati per passare attraverso la decodifica e ricostruire il set di immagini di Ground Truth di destinazione. Qui assegniamo L1 Loss per la ricostruzione.
  1. Le immagini generate e le immagini di ground truth vengono valutate da Visual Quality Discriminator indipendentemente dal fatto che l'immagine sia realistica o meno, non sulla sincronizzazione vocale ma sugli artefatti visivi. A differenza di LipGAN, entropia incrociata binaria è stata utilizzata la perdita, non la perdita contrastiva. Aiutano a rimuovere gli artefatti visivi indipendentemente dalla sincronizzazione vocale e si concentrano solo sulla sintesi facciale realistica. Favorisce uno studente mostruoso in grado di risolvere problemi di matematica.
  2. Dovrebbe essere lasciato all'esperto determinare se la sincronizzazione della voce è eccellente. Porta il Esperto, un discriminatore Lip-Sync pre-addestrato, per valutare se la sincronizzazione tra suono e immagine è corretta. Il punto principale è che la rete deve ottenere un punteggio affidabile da un esperto ben istruito, altrimenti non può sviluppare le proprie capacità di sintesi. In questo articolo, sostengono di creare una rete intelligente di pre-treno in grado di discriminare professionalmente solo la sincronizzazione. Può causare una perdita di sincronizzazione accurata tra immagini sintetizzate e dati vocali. Più precisamente, perdita di somiglianza del coseno viene assegnato al punteggio 1 se la sincronizzazione è corretta e a 0 se non è corretta.

Metrica di valutazione

  • Set di dati
  1. LEGGE [4]
  2. LRS2 [5]
  3. LRS3 [6]
  • Set di dati
  1. LEGGE [4]
  2. LRS2 [5]
  3. LRS3 [6]
  • SyncNet: LSE-D, LSE-C

SyncNet è una rete nata per determinare se un video è falso o meno [2]. Quando si immettono dati MFCC video e vocali a forma di bocca, la rete emette una distanza ravvicinata se la sincronizzazione è corretta. Se la sincronizzazione è errata, emettono una grande distanza tra i vettori di incorporamento audio e i vettori di incorporamento video.

Al momento, la Lip-Sync Error Distance (LSE-D) viene utilizzata come elemento di valutazione per determinare se la sincronizzazione dei frame e dei dati vocali è corretta.

 

 

Se fornisci un offset temporale tra fotogramma video e audio, possiamo confrontare la distanza tra i vettori di incorporamento audio e video. Nel momento in cui la sincronizzazione corrisponde (dove l'offset temporale è 0), l'LSE-D è piccolo e l'offset aumenta, facendo diminuire la distanza. Pertanto, è emerso che Lip-Sync Error Confidence (LSE-C), una sorta di indicatore di affidabilità, secondo cui video e audio si adattano alla parte di sincronizzazione in base alla variazione del valore della distanza. Calcolano la differenza tra il valore mediano e il valore minimo della distanza.

 

  • FID (distanza di inizio del telaio)

 

Risultati

1. Finestra temporale: Una delle grandi differenze rispetto al LipGAN di Baseline è che Wav2Lip utilizza il multi-frame come input. Infatti, grazie all'apprendimento effettuato aumentando il numero di frame, è emerso che sia l'LSE-D che l'LSE-C hanno mostrato buone prestazioni all'aumentare della finestra termica.

 

2. Discriminatore preformato: grazie all'utilizzo della rete pre-treno Expert, che aiuta a controllare professionalmente solo la sincronizzazione labiale, gli elementi di valutazione LSE-D e LSE-C hanno mostrato prestazioni migliori rispetto ai modelli Speech2Vid [3] e LipGAN esistenti. Fare riferimento a Wav2Lip (4 ore)

 

 

3. Discriminatore della qualità visiva: a differenza di LipGAN, l'aggiunta di un discriminatore che confronta solo le immagini visive per determinare quelle reali e false ha mostrato una leggera diminuzione delle prestazioni in LSE-D e LSE-C, ma in termini di FID, la qualità dell'immagine visiva è molto migliore. Pertanto, è possibile esprimere un movimento delle labbra molto più realistico. Inoltre ha ricevuto punteggi di preferenza e di esperienza utente molto più alti. Fare riferimento a Wav2Lip + GAN (4 ore)

 

 

Conclusione e opinione

È una rete in grado di sintetizzare video di sincronizzazione labiale molto più accurati rispetto ai modelli precedenti. È stato impressionante che non si limitasse all'uso di discriminatori per rimuovere gli artefatti visivi, ma che migliorasse ulteriormente le prestazioni con discriminatori estranei appresi in anticipo per una sincronizzazione molto migliore. Inoltre, sono state fornite varie metriche e set di dati per la valutazione delle prestazioni, che hanno dimostrato una maggiore obiettività e affidabilità attraverso il punteggio delle preferenze ottenuto attraverso l'esperienza utente. Nel prossimo futuro verranno aggiunte le presentazioni dei movimenti, come i gesti e la posa della testa, e gran parte della ricerca è già in corso. Si prevede che il modello di sintesi della sincronizzazione labiale attraverso il deep learning si svilupperà ulteriormente e considererà gli umani un servizio più ricco.

 

Riferimento

[1] Verso la traduzione automatica faccia a faccia

[2] Fuori tempo: sincronizzazione labiale automatica in circolazione

[3] Metodi subgradienti adattivi per l'apprendimento online e l'ottimizzazione stocastica

[4] Lettura labiale in natura

[5] Riconoscimento vocale audio-visivo profondo

[6] LRS3-TED: un set di dati su larga scala per il riconoscimento vocale visivo

[7] U-Net: reti convoluzionali per immagini biomediche

Most Read

Most Read

Restiamo connessi

Il nostro team è pronto a supportarti nel tuo viaggio umano virtuale. Fai clic qui sotto per contattarci e qualcuno ti contatterà a breve.