Аннотация

Технология синхронизации губ, которая генерирует правильное движение губ для заданных голосовых данных, является одной из самых популярных областей в глубоком обучении. В качестве примера возьмем фильм. А что если иностранный актер ведёт дубляж на языке нашей страны? Как и у актера, который долгое время жил в Корее, смысл речи будет выражен хорошо, а погружение — намного лучше. Кроме того, неудивительно, что в новостях политики из других стран говорят на корейском языке с помощью технологии глубокого обучения. Поэтому ожидается, что естественная и точная технология синхронизации губ сделает большой шаг вперед в индустрии услуг и связи будущего.

Как будет реализована технология синхронизации губ? Это можно объяснить двумя основными шагами. Во-первых, нейронная сеть учится сопоставлять основные координаты формы губ, синхронизируясь со звуком.

Затем он учится синтезировать реалистичный набор ключевых точек губ на основе заданного набора ключевых точек рта. На этом этапе используется технология генеративной состязательной сети (GAN). Эта GAN представляет собой тип нейронной сети, которая публикует выходные данные, имеющие схожее распределение с ранее изученным набором данных, который имеет определенные особенности.

Давайте рассмотрим пример. Если Банк Кореи научит нейросеть определять форму или цветовое распределение валюты, она сможет создать реалистичную поддельную банкноту. Таким образом, нейросеть научится создавать реалистичные формы человеческих губ, если мы научим нас приблизительным основным ключевым моментам.

Однако сети нелегко освоить эту технику, потому что создание реалистичной формы губ и синтез нижней челюсти человека — очень сложные задачи. В частности, если вы безответственно передадите все эти сложные домашние задания, чтобы хорошо освоить их, легко заметить, что звук и губы не совпадают с нереально синтезированными лицами.

Основной вклад бумаги

Сеть синхронизации губ Губа Wav2Lip была предложена конструкция, которая хорошо подходит для входной речи даже в суровых условиях и обладает самой современной производительностью.
Контрольный показатель а также метрический Было предложено оценить эффективность синхронизации губ.
Они собрали и предоставили набор данных под названием Оценка синхронизации губ в реальных условиях (повторная синхронизация).
При оценке синтезированного видео, более 90% опрошенных Wav2Lip показал лучшие результаты по сравнению с предыдущими моделями синхронизации губ.

‍

Предыдущий базовый уровень SOTA: модель LipGaN

В качестве основы автор привел LipGaN [1], предыдущую сеть SOTA. Краткое резюме выглядит следующим образом.

Тип данных

Голосовые данные, преобразованные методом MFCC (цепстральный коэффициент мелкой частоты).
Изображение лица целевого человека, подлежащего синтезу (разсинхронизировать изображение (с голосовыми данными)
Изображение лица целевого человека, подлежащего синтезу (нижняя половина синхронизируемого изображения закрыта)

‍

The Аудиокодер(4 блока), выраженный красным цветом, вычисляет данные MFCC.
The Кодировщик лица(7 блоков), выраженное синим цветом, вычисляет синхронизированное изображение лица (нижняя половина закрыта) и несинхронизированное изображение всего лица.
Объедините вектор встраивания звука и вектор встраивания лица, созданный с помощью двух кодеров (красного и синего цвета).
Зеленый цвет Декодер лица(7 блоков) синтезирует лицо из комбинированного вектора встраивания. В настоящее время не подключайтесь к Интернету, как в U-Net, чтобы информация о лице могла быть хорошо сохранена и передана в декодер. Этот процесс декодирования действует как генератор в GAN. (распределение) Потеря L1 для восстановления целевого грунта (правда, изображение лица)
Синтезированное изображение и исходное изображение (лицо, синхронизированное с голосовыми данными) поступают в желтый Face Encoder и преобразуются в вектор встраивания с помощью нескольких операций.
Аналогичным образом, аудиоданные MFCC, используемые в качестве входных данных, преобразуются в вектор встраивания через серый аудиокодер (4 блока).
Контрастивная потеря позволяет вектору встраивания голоса и вектору встраивания лиц принимать значение 0, если они не синхронизированы, и 1, если они синхронизированы.

‍

Ограничение

Генератору было поручено слишком много задач. Эта структура учит синтезировать реалистичные лица, которые могут раскрыть личность целевого человека, и определять, синхронизировано ли движение губ с помощью синтезированных изображений. Другими словами, не только изучайте математику и сдавайте экзамены по математике, но и вместе изучайте математику и английский язык и сдавайте экзамены по двум предметам. Таким образом, существующие сети, такие как модель LipGAN изучайте сложные задачи одновременно, поэтому трудно синтезировать подходящую форму рта.
Если на самом деле вы потратите на обучение около 20 эпох, почти половина эпох ориентирована на синтез лица, а синтез губ — только после этого. Поэтому изучение формы губ — это лишь часть всего учебного процесса. Автор отметил, что потеря во рту на 4% ниже работоспособности чем реконструкция пикселей.
LipGaN синтезирует только один кадр. Однако, учитывая, что на форму рта действительно влияет вышеупомянутый голос, синтезирование изображения из мультикадра которые могут усвоить предварительные знания, больше подходят для естественных движений рта.

‍

Модель Wav2Lip

Чтобы улучшить проблемы LipGan, автор предлагает структуру под названием Wav2Lip.

Тип данных

Голосовые данные, преобразованные методом MFCC (цепстральный коэффициент мелкой частоты).
Изображение лица целевого человека, подлежащего синтезу (разсинхронизировать изображение (с голосовыми данными)
Изображение лица целевого человека, подлежащего синтезу (нижняя половина синхронизируемого изображения закрыта)

‍

Сетевой механизм

The Аудиокодер выраженный зеленым цветом, вычисляет данные MFCC.
The Кодировщик лица выраженное синим цветом, вычисляет синхронизированное изображение лица (нижняя половина закрыта) и несинхронизированное изображение всего лица. В отличие от LipGAN, мы использовали несколько последовательных кадров вместо одного кадра.
Вектор встраивания звука и вектор встраивания лиц, созданные двумя кодерами, объединяются для прохождения через декодирование и восстановления целевого набора истинных изображений земли. Здесь мы выделяем L1 Loss для реконструкции.

Сгенерированные изображения и изображения земной поверхности оцениваются с помощью Visual Quality Discriminator, независимо от того, является ли изображение реалистичным или нет, не о синхронизации голоса, а о визуальных артефактах. В отличие от LipGan, бинарная перекрестная энтропия использовалась потеря, а не контрастная потеря. Они помогают удалить визуальные артефакты независимо от синхронизации голоса и сосредоточиться только на реалистичном синтезе лица. Это воспитывает ученика-монстра, способного решать математические задачи.
Определить, является ли синхронизация голоса отличной, следует доверить эксперту. Возьмите с собой Эксперт, предварительно обученный дискриминатор Lip-Sync, позволяющий оценить правильность синхронизации звука и изображения. Суть в том, что ваша сеть должна получить достоверную оценку от опытного эксперта, иначе он не сможет развить свои навыки синтеза. В этой статье они доказывают, что нужно создать интеллектуальную сеть предварительной подготовки к обучению, способную профессионально распознавать только синхронизацию. Это может привести к потере точной синхронизации между синтезированным изображением и голосовыми данными. Точнее, потеря сходства по косинусу присваивается 1 балл, если синхронизация правильная, и 0, если она неправильная.

‍

Метрика оценки

Набор данных

ПРАВО [4]
2 ГОДА [5]
3 [6]

Набор данных

ПРАВО [4]
2 ГОДА [5]
3 [6]

Синхронизация: LSE-D, LSE-C

SyncNet — это сеть, созданная для определения того, является ли видео поддельным или нет [2]. Когда вы вводите данные MFCC в форме рта видео и голоса, сеть сообщает, что при правильной синхронизации расстояние близко. При неправильной синхронизации выводится большое расстояние между векторами встраивания звука и встраивания видео.

‍

В настоящее время расстояние ошибок синхронизации губ (LSE-D) используется в качестве критерия оценки, позволяющего определить правильность синхронизации кадров и голосовых данных.

Если вы укажете временное смещение между видеокадром и звуком, мы сможем сравнить расстояние между векторами встраивания аудио и видео. В тот момент, когда синхронизация совпадает (когда временное смещение равно 0), значение LSE-D невелико, а смещение увеличивается, что приводит к смещению расстояния. Таким образом, появился показатель достоверности ошибок Lip-Sync Error Confidence (LSE-C), своего рода индикатор надежности, позволяющий определить, соответствуют ли видео и звук части синхронизации в зависимости от изменения значения расстояния. Они вычисляют разницу между медианным значением и минимальным значением расстояния.

‍‍

FID (начальное расстояние фрахта)

‍

Результаты

1. Временное окно: одно из больших отличий от LipGAN от Baseline заключается в том, что Wav2Lip использует многокадровый ввод. Фактически, в результате обучения путем увеличения количества кадров было обнаружено, что LSE-D и LSE-C показали хорошие результаты по мере увеличения теплового окна.

2. Предварительно обученный дискриминатор: в результате использования системы предтренировочной сети Expert, которая позволяет профессионально проверять только синхронизацию губ, результаты оценки LSE-D и LSE-C показали лучшую производительность по сравнению с существующими моделями Speech2Vid [3] и LipGaN. см. Wav2Lip (2 часа)

3. Дискриминатор визуального качества: в отличие от LipGAN, добавление дискриминатора, который сравнивает только изображения зрения для определения реальных/поддельных, показало небольшое снижение производительности LSE-D и LSE-C, но с точки зрения FID качество визуального изображения намного лучше. Таким образом, вы можете выразить гораздо более реалистичное движение губ. Кроме того, оно получило гораздо больше предпочтений и оценок пользовательского опыта. Обратитесь к Wav2Lip+GAN (2 часа)

Заключение и мнение

Это сеть, которая может синтезировать гораздо более точные видео с синхронизацией губ, чем предыдущие модели. Впечатляет то, что использование дискриминаторов не ограничивалось только удалением визуальных артефактов, но и еще больше повысило производительность за счет использования посторонних дискриминаторов, которые были заранее изучены, что значительно улучшило синхронизацию. Кроме того, для оценки эффективности были предоставлены различные метрики и наборы данных, которые доказали свою объективность и надежность, оценивая предпочтения на основе пользовательского опыта. В ближайшем будущем будет добавлено представление движений, таких как жесты и позы головы, и большая часть исследований уже проводится. Ожидается, что модель синтеза синхронизации губ с помощью глубокого обучения получит дальнейшее развитие и станет более совершенным сервисом для людей.