Abstrato
A tecnologia de sincronização labial, que gera o movimento correto dos lábios para um determinado dado de voz, é um dos campos mais populares do aprendizado profundo. Vamos usar um filme como exemplo. E se um ator estrangeiro dublar de acordo com o idioma do nosso país? Como um ator que morou na Coréia por muito tempo, o significado da fala será bem expresso e a imersão será muito melhor. Além disso, não surpreende que as notícias mostrem políticos de outros países falando em coreano por meio da tecnologia de aprendizado profundo. Portanto, espera-se que a tecnologia de sincronização labial natural e precisa traga um grande salto para o futuro setor de serviços e comunicação.
Como a tecnologia de sincronização labial será implementada? Isso pode ser explicado em duas etapas principais. Primeiro, a rede neural aprende a combinar as coordenadas principais do formato dos lábios, sincronizando com o som.
Em seguida, ele aprende a sintetizar lábios realistas com base em um determinado conjunto de pontos-chave da boca. A tecnologia usada nesta etapa é a Generative Adversarial Network (GAN). Esse GAN é um tipo de rede neural que libera saídas com distribuição semelhante ao conjunto de dados aprendido anteriormente, que possui determinados recursos.
Vamos dar um exemplo. Se o Banco da Coreia ensinar à rede neural a forma ou a distribuição de cores da moeda, ele será capaz de criar notas falsas realistas. Portanto, a rede neural aprende a criar formas realistas de lábios humanos se ensinarmos os principais pontos-chave aproximados.
No entanto, a rede não consegue aprender a técnica facilmente porque as coisas que tornam o formato realista dos lábios e sintetizam a mandíbula inferior humana são tarefas muito complicadas. Em particular, se você passar de forma irresponsável todos esses trabalhos de casa complexos para aprender bem para sua rede, é fácil observar que o som e os lábios não combinam com faces sintetizadas de forma irreal.
Contribuição principal do papel
- Uma rede de sincronização labial Wav 2 Lip uma estrutura que funciona bem para entrada de voz mesmo em condições adversas foi proposta com desempenho de última geração.
- Ponto de referência e métrica foram propostos avaliar o desempenho da sincronização labial.
- Eles coletaram e forneceram um conjunto de dados chamado Avaliação de sincronização labial no mundo real (resincronizada).
- Ao avaliar o vídeo sintetizado, mais de 90% das pessoas avaliadas, o Wav2Lip teve um desempenho melhor do que os modelos anteriores de sincronização labial.
Linha de base SOTA anterior: modelo LipGan
O autor citou LipGaN [1], a rede SOTA anterior, como linha de base. Um breve resumo é o seguinte.
- Tipo de dados
- Dados de voz transformados pela técnica MFCC (Mel-Frequency Cepstral Coefficient).
- Imagem do rosto da pessoa alvo a ser sintetizada (não sincronizar imagem com dados de voz)
- Imagem do rosto da pessoa alvo a ser sintetizada (a metade inferior da imagem de sincronização é coberta)
- O Codificador de áudio(4 blocos) expressos em vermelho calculam os dados do MFCC.
- O Codificador facial(7 blocos) expressos em azul calculam a imagem facial sincronizada (metade inferior coberta) e a imagem não sincronizada do rosto inteiro.
- Combine o vetor de incorporação de áudio e o vetor de incorporação facial criado por meio dos dois codificadores (cor vermelha e azul).
- A cor verde Decodificador facial(7 blocos) sintetiza a face a partir do vetor de incorporação combinado. Neste momento, evite a conexão, como a U-Net, para que as informações faciais possam ser bem preservadas e entregues ao decodificador. Esse processo de decodificação atua como um gerador no GAN. (alocação Perda de L1 para reconstruir o terreno alvo (imagem facial verdadeira)
- A imagem sintetizada e a imagem real (face sincronizada com dados de voz) entram no codificador facial amarelo e o transformam em vetor de incorporação por meio de várias operações.
- Da mesma forma, os dados MFCC de áudio usados como entrada são transformados em um vetor de incorporação por meio de um codificador de áudio cinza (4 blocos).
- Perda contrastiva permite que o vetor de incorporação de voz e o vetor de incorporação facial se tornem 0 se não estiverem sincronizados e 1 se estiverem sincronizados.
Limitação
- Uma quantidade excessiva de tarefas foi atribuída ao gerador. Essa estrutura ensina o trabalho de sintetizar rostos realistas que podem revelar a identidade do humano alvo e o trabalho de determinar se o movimento dos lábios está sincronizado ou não por meio de imagens sintetizadas. Em outras palavras, não apenas estude matemática e faça o exame de matemática, mas estude matemática e inglês juntos e faça exames para duas disciplinas. Portanto, redes existentes, como o modelo LipGAN aprenda tarefas complexas de uma só vez, por isso é difícil sintetizar formas de boca apropriadas.
- Se você realmente passar cerca de 20 épocas aprendendo, quase metade das épocas são tendenciosas para a síntese facial, e a síntese labial é só depois disso. Portanto, aprender o formato dos lábios é apenas uma parte de todo o processo de aprendizado. O autor apontou que a perda ao redor da boca é 4% menor desempenho do que a reconstrução de pixels.
- O LipGan sintetiza apenas um único quadro. No entanto, considerando que o formato da boca é realmente afetado pela voz acima mencionada, sintetizando imagem a partir de vários quadros que pode aprender que o conhecimento prévio é mais apropriado para movimentos naturais da boca.
Modelo Wav2Lip
Para melhorar os problemas do LipGan, o autor propõe uma estrutura chamada Wav2Lip.
- Tipo de dados
- Dados de voz transformados pela técnica MFCC (Mel-Frequency Cepstral Coefficient).
- Imagem do rosto da pessoa alvo a ser sintetizada (não sincronizar imagem com dados de voz)
- Imagem do rosto da pessoa alvo a ser sintetizada (a metade inferior da imagem de sincronização é coberta)
- Mecanismo de rede
- O Codificador de áudio expresso em verde calcula os dados do MFCC.
- O Codificador facial expressa em azul calcula a imagem facial sincronizada (metade inferior coberta) e a imagem não sincronizada do rosto inteiro. Ao contrário do LipGan, usamos vários quadros consecutivos em vez de um único quadro.
- O vetor de incorporação de áudio e o vetor de incorporação facial criados por dois codificadores são combinados para passar pela decodificação e reconstruir o conjunto de imagens reais do solo alvo. Aqui, alocamos a perda de L1 para reconstrução.
- As imagens geradas e as imagens reais são avaliadas pelo Visual Quality Discriminator, independentemente de a imagem ser realista ou não, não sobre sincronização de voz, mas sobre artefatos visuais. Ao contrário do LipGan, entropia cruzada binária perda foi usada, não perda contrastiva. Eles ajudam a remover artefatos visuais independentemente da sincronização de voz e se concentram apenas na síntese facial realista. Ele promove um estudante monstro que pode resolver problemas de matemática.
- Cabe ao especialista determinar se a sincronização da voz é excelente. Traga o Especialista, um discriminador de sincronização labial pré-treinado, para avaliar se a sincronização está correta entre som e imagem. O ponto principal é que sua rede precisa obter uma pontuação confiável de um especialista bem instruído, caso contrário, eles não conseguirão desenvolver suas habilidades de síntese. Neste artigo, eles defendem a criação de uma rede inteligente de pré-treinamento que possa discriminar profissionalmente apenas a sincronização. Ele pode causar uma perda de sincronização precisa entre a imagem sintetizada e os dados de voz. Mais precisamente, perda de similaridade de cosseno é atribuído à pontuação 1 se a sincronização estiver correta e 0 se não estiver correta.
Métrica de avaliação
- Conjunto de dados
- LEI [4]
- LRS2 [5]
- LRS3 [6]
- Conjunto de dados
- LEI [4]
- LRS2 [5]
- LRS3 [6]
- SyncNet: LSE-D, LSE-C
O SyncNet é uma rede que surgiu para determinar se um vídeo é falso ou não [2]. Quando você insere dados MFCC de vídeo e voz em formato de boca, a rede mostra que a distância é próxima se a sincronização estiver correta. Se a sincronização estiver errada, eles geram uma grande distância entre os vetores de incorporação de áudio e os vetores de incorporação de vídeo.
No momento, a distância de erro de sincronização labial (LSE-D) é usada como item de avaliação para determinar se a sincronização de dados de quadro e voz está correta.
Se você fornecer um deslocamento temporal entre o quadro de vídeo e o áudio, podemos comparar a distância entre os vetores de incorporação de áudio e vídeo. No momento em que a sincronização coincide (onde o deslocamento temporal é 0), o LSE-D é pequeno e o deslocamento aumenta, fazendo com que a distância se afaste. Portanto, surgiu o Lip-Sync Error Confidence (LSE-C), um tipo de indicador de confiabilidade, para verificar se o vídeo e o som se encaixam na parte de sincronização de acordo com a mudança no valor da distância. Eles calculam a diferença entre o valor médio e o valor mínimo da distância.
- FID (Distância de início de Frachet)
Resultados
1. Janela temporal: Uma das grandes diferenças do LipGAN da Baseline é que o Wav2Lip usa vários quadros como entrada. Na verdade, como resultado do aprendizado com o aumento do número de quadros, verificou-se que tanto o LSE-D quanto o LSE-C apresentaram bons desempenhos à medida que a janela térmica aumentava.
2. Discriminador pré-treinado: Como resultado do uso da rede de pré-treinamento Expert, que ajuda a verificar apenas a sincronização labial profissionalmente, os itens de avaliação LSE-D e LSE-C mostraram melhor desempenho do que os modelos Speech2Vid [3] e LipGAN existentes. Consulte Wav2Lip (4 horas)
3. Discriminador de qualidade visual: ao contrário do LipGan, adicionar um discriminador que compara apenas imagens de visão para determinar imagens real/falsas mostrou uma ligeira diminuição no desempenho em LSE-D e LSE-C, mas em termos de FID, a qualidade visual da imagem é muito melhor. Portanto, você pode expressar um movimento labial muito mais realista. Ele também recebeu pontuações de preferência e experiência do usuário muito maiores. Consulte Wav2Lip + GAN (4 horas)
Conclusão e opinião
É uma rede que pode sintetizar vídeos de sincronização labial muito mais precisos do que os modelos anteriores. Foi impressionante que não se limitasse ao uso de discriminadores para remover artefatos visuais, mas que aumentasse ainda mais o desempenho com discriminadores estranhos aprendidos com antecedência para uma sincronização muito melhor. Além disso, várias métricas e conjuntos de dados foram fornecidos para avaliação de desempenho e demonstraram maior objetividade e confiabilidade por meio da pontuação de preferência por meio da experiência do usuário. Em um futuro próximo, apresentações de movimentos, como gestos e pose de cabeça, serão adicionadas, e grande parte da pesquisa já está sendo conduzida. Espera-se que o modelo de síntese de sincronização labial por meio do aprendizado profundo se desenvolva ainda mais e aborde os humanos como um serviço mais rico.
Referência
[1] Rumo à tradução automática face a face
[2] Fora do tempo: sincronização labial automatizada na natureza
[3] Métodos adaptativos de subgradiente para aprendizado on-line e otimização estocástica
[4] Leitura labial na natureza
[5] Reconhecimento de fala audiovisual profundo
[6] LRS3-TED: um conjunto de dados em grande escala para reconhecimento visual de fala
[7] U-Net: redes convolucionais para imagens biomédicas