[Глубокое.2. Статья] Технология синтеза видео и голоса от DeepBrain AI на основе глубокого обучения — DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
October 29, 2021

AI Human — это технология, которая позволяет естественным образом выражать не только человеческую речь и интонацию, но и лица, мимику и движения с помощью видео, изучая человеческие лица на основе технологии искусственного интеллекта глубокого обучения, просто введя текст.

Сегодня мы расскажем о модели обучения, связанной с синтезом изображений на основе глубокого обучения, и познакомим вас с технологией внедрения искусственного интеллекта DeepBrain AI Human.

 

 

1) Основная модель технологии обучения

[Алгоритм классификации изображений CNN]
Это технология, которая анализирует изображения путем применения общих весов (фильтра) к нейронным сетям Convolution. Под функцией понимаются данные, извлеченные из различных объектов из входных данных.

 

<CNN Architecture>

 

Функция CNN заключается в классификации и распознавании изображений.

[ГАНГ]

Generative Adversarial Networks (GAN) — это враждебная модель глубокого обучения нейронных сетей, которая повторяет обучение до тех пор, пока его невозможно отличить от реального, создав на первый взгляд настоящую «вероятную подделку».
После того как конструктор генерирует изображение на основе случайного шума, дискриминатор просматривает истинное изображение и поддельное изображение и определяет истинно/ложь, чтобы изучить конструктор.

 

 

 

2) Оригинальная технология DeepBrain AI

 

 

<Lip Sync, Face Synthesis Technology>

Метод Lip Sync — это технология, которая контролирует речевое поведение (форма рта, движение челюсти, движение шеи) изображения из голоса путем синтеза исходного изображения таким образом, чтобы форма рта соответствовала заданному голосу, путем ввода произвольного голоса в видео, произнесенном конкретным человеком. Другими словами, можно синтезировать изображение говорящего человека в качестве входных данных произвольного голоса и фонового изображения.
Чтобы развить различные поведенческие паттерны в зависимости от речи, это осуществляется путем извлечения векторов признаков из речевого образа персонажа для информирования о распределении моделей поведения и разработки поведенческих паттернов в соответствии с речью путем изучения векторов признаков из речи.

 

<Real-time Video Synthesis Technology>

DeepBrain AI стала первой компанией в мире, которой удалось синтезировать изображение в реальном времени за счет разработки технологии оптимизации процессов. По сути, для внедрения синтеза видео, позволяющего общаться с клиентами в режиме реального времени, необходимы три основные технологии. Первая — это технология размещения. Для оптимизации скорости синтеза изображений мы разработали и применили собственную технологию пакетной обработки. Одновременная обработка нескольких запросов на синтез позволяет сократить время ожидания, необходимое для синтеза изображений. Во-вторых, это технология оптимизации кэш-сервера. Поскольку большинство разговоров можно преобразовать в данные и сохранить их, вопросы и разговоры, которые предполагается использовать повторно, встраиваются на кэш-сервер, что позволяет быстро передавать видео в реальном времени. И наконец, это технология Idle Framing. В модели искусственного интеллекта это естественное выражение, но если пользователь неподвижен во время разговора, он может чувствовать себя очень неестественно. Чтобы преодолеть эту проблему, этот разрыв можно свести к минимуму, создав у пользователя ощущение, что он слушает естественными движениями во время разговора.

Most Read

Most Read

Оставайтесь на связи

Наша команда готова поддержать вас в вашем виртуальном человеческом путешествии. Нажмите ниже, чтобы связаться с нами, и в ближайшее время с вами свяжутся.