[Profonde4. Article] La technologie de synthèse vidéo et vocale basée sur le deep learning de DeepBrain AI - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
October 29, 2021

AI Human est une technologie qui vous permet d'exprimer naturellement non seulement des voix telles que la parole et l'intonation humaines, mais également des visages, des expressions faciales et des mouvements par le biais de la vidéo en apprenant des visages humains sur la base de la technologie d'intelligence artificielle d'apprentissage en profondeur simplement en saisissant un texte.

Aujourd'hui, nous allons expliquer le modèle d'apprentissage lié à la synthèse d'images basée sur l'apprentissage profond et vous présenter la technologie d'implémentation humaine de DeepBrain AI AI.

 

 

1) Modèle de technologie d'apprentissage principal

[Algorithme de classification des images CNN]
Il s'agit d'une technologie qui analyse les images en appliquant des poids partagés (filtre) avec des réseaux neuronaux à convolution. La fonctionnalité fait référence aux données extraites de diverses fonctionnalités à partir de l'entrée.

 

<CNN Architecture>

 

La fonction de CNN est de classer et de reconnaître les images.

[GANG]

Les réseaux antagonistes génératifs (GAN) sont un modèle d'apprentissage profond de réseaux neuronaux hostiles qui répète l'apprentissage jusqu'à ce qu'il soit impossible de le distinguer de la réalité en créant un véritable « faux probable » au premier coup d'œil.
Une fois que le constructeur a généré une image à partir d'un bruit aléatoire, le discriminateur examine l'image vraie et la fausse image et détermine vrai/faux pour apprendre le constructeur.

 

 

 

2) La technologie originale de DeepBrain AI

 

 

<Lip Sync, Face Synthesis Technology>

La méthode Lip Sync est une technologie qui contrôle le comportement vocal (forme de la bouche, mouvement de la mâchoire, mouvement du cou) d'une image à partir d'une voix en synthétisant l'image d'origine afin que la forme de la bouche corresponde à une voix donnée en saisissant une voix arbitraire dans la vidéo prononcée par une personne en particulier. En d'autres termes, vous pouvez synthétiser une image de personne qui parle en tant qu'entrée d'une voix et d'une image d'arrière-plan arbitraires.
Afin de développer divers modèles comportementaux en fonction de la parole, il est réalisé en extrayant des vecteurs de caractéristiques de l'image vocale du personnage pour informer la distribution des modèles de comportement, et en développant des modèles comportementaux en fonction de la parole en apprenant des vecteurs de caractéristiques à partir de la parole.

 

<Real-time Video Synthesis Technology>

DeepBrain AI a été la première entreprise au monde à réussir à synthétiser des images en temps réel grâce au développement d'une technologie d'optimisation des processus. En gros, trois technologies majeures sont nécessaires pour mettre en œuvre une synthèse vidéo capable de communiquer avec les clients en temps réel. Le premier est la technologie de placement. Pour optimiser la vitesse de synthèse des images, nous avons développé et appliqué notre propre technologie de traitement par lots. En traitant simultanément plusieurs demandes de synthèse, il est possible de réduire la latence requise pour la synthèse d'images. Deuxièmement, il s'agit de la technologie d'optimisation des serveurs de cache. Étant donné que la plupart des conversations peuvent être transformées en données et conservées, les questions et conversations susceptibles d'être utilisées de manière répétée sont intégrées au serveur de cache afin que la vidéo puisse être transmise rapidement en temps réel. Enfin, il s'agit de la technologie Idle Framing. L'expression est naturelle lorsque le modèle d'intelligence artificielle parle, mais si l'utilisateur est immobile pendant qu'il parle, il peut se sentir très anormal. Pour surmonter cela, l'écart peut être minimisé en donnant à l'utilisateur le sentiment qu'il écoute avec des mouvements naturels tout en parlant.

Most Read

Most Read

Restons connectés

Notre équipe est prête à vous accompagner dans votre parcours humain virtuel. Cliquez ci-dessous pour nous contacter et quelqu'un vous contactera sous peu.