[Profundo. [Artigo] Tecnologia de síntese de vídeo e voz baseada em aprendizado profundo do DeepBrain AI - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
October 29, 2021

O AI Human é uma tecnologia que permite que você expresse naturalmente não apenas vozes como fala e entonação humanas, mas também rostos, expressões faciais e movimentos por meio de vídeo, aprendendo rostos humanos com base na tecnologia de IA de aprendizado profundo simplesmente com a entrada de um texto.

Hoje, explicaremos o modelo de aprendizado relacionado à síntese de imagens baseada em aprendizado profundo e apresentaremos a tecnologia de implementação AI Human da DeepBrain AI.

 

 

1) Modelo principal de tecnologia de aprendizagem

[Algoritmo de classificação de imagens CNN]
É uma tecnologia que analisa imagens aplicando pesos compartilhados (filtro) com redes neurais de convolução. O recurso se refere aos dados extraídos de vários recursos da entrada.

 

<CNN Architecture>

 

A função da CNN é classificar e reconhecer imagens.

[GANHE]

As redes adversárias generativas (GAN) são um modelo de aprendizado profundo de rede neural hostil que repete o aprendizado até que seja impossível distingui-lo do real, criando um verdadeiro “provavelmente falso” à primeira vista.
Depois que o construtor gera uma imagem a partir de um ruído aleatório, o discriminador analisa a imagem verdadeira e a imagem falsa e determina verdadeiro/falso para aprender o construtor.

 

 

 

2) Tecnologia original do DeepBrain AI

 

 

<Lip Sync, Face Synthesis Technology>

O método Lip Sync é uma tecnologia que controla o comportamento da fala (formato da boca, movimento da mandíbula, movimento do pescoço) de uma imagem a partir de uma voz, sintetizando a imagem original para que o formato da boca corresponda a uma determinada voz inserindo uma voz arbitrária no vídeo falado por uma pessoa em particular. Em outras palavras, você pode sintetizar a imagem de uma pessoa que fala como uma entrada arbitrária de voz e imagem de fundo.
Para desenvolver vários padrões comportamentais de acordo com a fala, isso é realizado extraindo vetores de características da imagem da fala do personagem para informar a distribuição dos padrões de comportamento e desenvolvendo padrões comportamentais de acordo com a fala, aprendendo vetores de características da fala.

 

<Real-time Video Synthesis Technology>

A DeepBrain AI foi a primeira empresa no mundo a conseguir sintetizar imagens em tempo real por meio do desenvolvimento de tecnologia de otimização de processos. Basicamente, são necessárias três tecnologias principais para implementar a síntese de vídeo que possa se comunicar com os clientes em tempo real. A primeira é a tecnologia de posicionamento. Para otimizar a velocidade da síntese de imagens, desenvolvemos e aplicamos nossa própria tecnologia de processamento em lote. Ao processar simultaneamente várias solicitações de síntese, é possível reduzir a latência necessária para a síntese de imagens. Em segundo lugar, é a tecnologia de otimização do servidor de cache. Como a maioria das conversas pode ser transformada em dados e retida, as perguntas e conversas que devem ser usadas repetidamente são criadas no servidor de cache para que o vídeo possa ser transmitido rapidamente em tempo real. E, por último, é a tecnologia Idle Framing. A expressão é natural enquanto o modelo de inteligência artificial está falando, mas se o usuário estiver parado enquanto fala, ele pode se sentir muito antinatural. Para superar isso, a lacuna pode ser minimizada dando ao usuário a sensação de que está ouvindo com movimentos naturais enquanto fala.

Most Read

Most Read

Vamos ficar conectados

Nossa equipe está pronta para apoiá-lo em sua jornada humana virtual. Clique abaixo para entrar em contato e alguém entrará em contato em breve.