O AI Human é uma tecnologia que permite que você expresse naturalmente não apenas vozes como fala e entonação humanas, mas também rostos, expressões faciais e movimentos por meio de vídeo, aprendendo rostos humanos com base na tecnologia de IA de aprendizado profundo simplesmente com a entrada de um texto.
Hoje, explicaremos o modelo de aprendizado relacionado à síntese de imagens baseada em aprendizado profundo e apresentaremos a tecnologia de implementação AI Human da DeepBrain AI.
1) Modelo principal de tecnologia de aprendizagem
[Algoritmo de classificação de imagens CNN]
É uma tecnologia que analisa imagens aplicando pesos compartilhados (filtro) com redes neurais de convolução. O recurso se refere aos dados extraídos de vários recursos da entrada.
<CNN Architecture>
A função da CNN é classificar e reconhecer imagens.
[GANHE]
As redes adversárias generativas (GAN) são um modelo de aprendizado profundo de rede neural hostil que repete o aprendizado até que seja impossível distingui-lo do real, criando um verdadeiro “provavelmente falso” à primeira vista.
Depois que o construtor gera uma imagem a partir de um ruído aleatório, o discriminador analisa a imagem verdadeira e a imagem falsa e determina verdadeiro/falso para aprender o construtor.
2) Tecnologia original do DeepBrain AI
<Lip Sync, Face Synthesis Technology>
O método Lip Sync é uma tecnologia que controla o comportamento da fala (formato da boca, movimento da mandíbula, movimento do pescoço) de uma imagem a partir de uma voz, sintetizando a imagem original para que o formato da boca corresponda a uma determinada voz inserindo uma voz arbitrária no vídeo falado por uma pessoa em particular. Em outras palavras, você pode sintetizar a imagem de uma pessoa que fala como uma entrada arbitrária de voz e imagem de fundo.
Para desenvolver vários padrões comportamentais de acordo com a fala, isso é realizado extraindo vetores de características da imagem da fala do personagem para informar a distribuição dos padrões de comportamento e desenvolvendo padrões comportamentais de acordo com a fala, aprendendo vetores de características da fala.
<Real-time Video Synthesis Technology>
A DeepBrain AI foi a primeira empresa no mundo a conseguir sintetizar imagens em tempo real por meio do desenvolvimento de tecnologia de otimização de processos. Basicamente, são necessárias três tecnologias principais para implementar a síntese de vídeo que possa se comunicar com os clientes em tempo real. A primeira é a tecnologia de posicionamento. Para otimizar a velocidade da síntese de imagens, desenvolvemos e aplicamos nossa própria tecnologia de processamento em lote. Ao processar simultaneamente várias solicitações de síntese, é possível reduzir a latência necessária para a síntese de imagens. Em segundo lugar, é a tecnologia de otimização do servidor de cache. Como a maioria das conversas pode ser transformada em dados e retida, as perguntas e conversas que devem ser usadas repetidamente são criadas no servidor de cache para que o vídeo possa ser transmitido rapidamente em tempo real. E, por último, é a tecnologia Idle Framing. A expressão é natural enquanto o modelo de inteligência artificial está falando, mas se o usuário estiver parado enquanto fala, ele pode se sentir muito antinatural. Para superar isso, a lacuna pode ser minimizada dando ao usuário a sensação de que está ouvindo com movimentos naturais enquanto fala.