[Profundo. Artículo] La tecnología de síntesis de voz y vídeo basada en el aprendizaje profundo de DeepBrain AI: DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
October 29, 2021

AI Human es una tecnología que permite expresar de forma natural no solo voces, como el habla y la entonación humanas, sino también rostros, expresiones faciales y movimientos a través del vídeo mediante el aprendizaje de rostros humanos basándose en la tecnología de inteligencia artificial de aprendizaje profundo simplemente introduciendo un texto.

Hoy, explicaremos el modelo de aprendizaje relacionado con la síntesis de imágenes basada en el aprendizaje profundo y le presentaremos la tecnología de implementación AI Human de DeepBrain AI.

 

 

1) Modelo principal de tecnología de aprendizaje

[Algoritmo de clasificación de imágenes de CNN]
Es una tecnología que analiza imágenes mediante la aplicación de pesos compartidos (filtro) con redes neuronales de convolución. La función se refiere a los datos extraídos de varias funciones de la entrada.

 

<CNN Architecture>

 

La función de la CNN es clasificar y reconocer imágenes.

[GANANCIA]

Las redes generativas adversarias (GAN) son un modelo de aprendizaje profundo de redes neuronales hostiles que repite el aprendizaje hasta que es imposible distinguirlo de lo real creando una verdadera «falsificación probable» a primera vista.
Una vez que el constructor genera una imagen a partir del ruido aleatorio, el discriminador examina la imagen verdadera y la falsa y determina si es verdadero o falso para conocer el constructor.

 

 

 

2) La tecnología original de DeepBrain AI

 

 

<Lip Sync, Face Synthesis Technology>

El método Lip Sync es una tecnología que controla el comportamiento del habla (forma de la boca, movimiento de la mandíbula, movimiento del cuello) de una imagen a partir de una voz sintetizando la imagen original para que la forma de la boca coincida con una voz determinada al introducir una voz arbitraria en el vídeo pronunciada por una persona en particular. En otras palabras, se puede sintetizar la imagen de una persona que habla como entrada de una voz y una imagen de fondo arbitrarias.
Para desarrollar varios patrones de comportamiento de acuerdo con el habla, se realiza extrayendo vectores de características de la imagen del habla del personaje para informar la distribución de los patrones de comportamiento, y desarrollando patrones de comportamiento de acuerdo con el habla aprendiendo los vectores de características del habla.

 

<Real-time Video Synthesis Technology>

DeepBrain AI fue la primera empresa del mundo que logró sintetizar imágenes en tiempo real mediante el desarrollo de tecnología de optimización de procesos. Básicamente, se necesitan tres tecnologías principales para implementar la síntesis de video que pueda comunicarse con los clientes en tiempo real. La primera es la tecnología de colocación. Para optimizar la velocidad de la síntesis de imágenes, desarrollamos y aplicamos nuestra propia tecnología de procesamiento por lotes. Al procesar simultáneamente varias solicitudes de síntesis, es posible reducir la latencia requerida para la síntesis de imágenes. En segundo lugar, es la tecnología de optimización del servidor de caché. Dado que la mayoría de las conversaciones se pueden convertir en datos y conservarlos, las preguntas y conversaciones que se espera que se utilicen repetidamente se almacenan en el servidor de caché para que el vídeo se pueda transmitir rápidamente en tiempo real. Y, por último, se trata de la tecnología Idle Framing. La expresión es natural mientras el modelo de inteligencia artificial habla, pero si el usuario está parado mientras habla, puede sentirse muy antinatural. Para superar esto, la brecha se puede minimizar dando al usuario la sensación de que está escuchando con movimientos naturales mientras habla.

Most Read

Most Read

Mantengámonos conectados

Nuestro equipo está listo para apoyarlo en su viaje humano virtual. Haga clic a continuación para comunicarse con nosotros y alguien se pondrá en contacto con usted en breve.