[Deep.人. Articolo] La tecnologia di sintesi video e vocale basata sull'apprendimento profondo di DeepBrain AI - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
October 29, 2021

AI Human è una tecnologia che consente di esprimere in modo naturale non solo voci come il linguaggio umano e l'intonazione, ma anche volti, espressioni facciali e movimenti attraverso i video imparando i volti umani in base alla tecnologia AI di deep learning semplicemente inserendo un testo.

Oggi spiegheremo il modello di apprendimento relativo alla sintesi di immagini basata sul deep learning e vi presenteremo la tecnologia di implementazione AI Human di DeepBrain AI.

 

 

1) Modello di tecnologia di apprendimento principale

[Algoritmo di classificazione delle immagini CNN]
È una tecnologia che analizza le immagini applicando pesi condivisi (filtro) con Convolution Neural Networks. La funzionalità si riferisce ai dati estratti da varie funzionalità dall'input.

 

<CNN Architecture>

 

La funzione della CNN è classificare e riconoscere le immagini.

[GUADAGNO]

Generative Adversarial Networks (GAN) è un modello di deep learning di rete neurale ostile che ripete l'apprendimento fino a renderlo impossibile distinguerlo dalla realtà creando un vero «probabile falso» a prima vista.
Dopo che il costruttore ha generato un'immagine da un rumore casuale, il discriminatore guarda l'immagine vera e l'immagine falsa e determina true/false per imparare il costruttore.

 

 

 

2) La tecnologia originale di DeepBrain AI

 

 

<Lip Sync, Face Synthesis Technology>

Il metodo Lip Sync è una tecnologia che controlla il comportamento vocale (forma della bocca, movimento della mandibola, movimento del collo) di un'immagine proveniente da una voce sintetizzando l'immagine originale in modo che la forma della bocca corrisponda a una determinata voce inserendo una voce arbitraria nel video pronunciato da una determinata persona. In altre parole, puoi sintetizzare l'immagine di una persona che parla come input di una voce e di un'immagine di sfondo arbitrari.
Per sviluppare vari modelli comportamentali in base al parlato, viene eseguito estraendo vettori di caratteristiche dall'immagine vocale del personaggio per informare la distribuzione dei modelli di comportamento e sviluppando modelli comportamentali in base al parlato imparando i vettori di caratteristiche dal parlato.

 

<Real-time Video Synthesis Technology>

DeepBrain AI è stata la prima azienda al mondo a riuscire a sintetizzare immagini in tempo reale attraverso lo sviluppo di una tecnologia di ottimizzazione dei processi. Fondamentalmente, sono necessarie tre tecnologie principali per implementare la sintesi video in grado di comunicare con i clienti in tempo reale. La prima è la tecnologia di posizionamento. Per ottimizzare la velocità di sintesi delle immagini, abbiamo sviluppato e applicato la nostra tecnologia di elaborazione in batch. Elaborando contemporaneamente più richieste di sintesi, è possibile ridurre la latenza richiesta per la sintesi delle immagini. In secondo luogo, è una tecnologia di ottimizzazione del server di cache. Poiché la maggior parte delle conversazioni può essere trasformata in dati e conservata, le domande e le conversazioni che dovrebbero essere utilizzate ripetutamente vengono create sul server di cache in modo che i video possano essere trasmessi rapidamente in tempo reale. Infine, è la tecnologia Idle Framing. L'espressione è naturale mentre il modello di intelligenza artificiale sta parlando, ma se l'utente è fermo mentre parla, può sentirsi molto innaturale. Per ovviare a questo problema, il divario può essere ridotto al minimo dando all'utente la sensazione di ascoltare con movimenti naturali mentre parla.

Most Read

Most Read

Restiamo connessi

Il nostro team è pronto a supportarti nel tuo viaggio umano virtuale. Fai clic qui sotto per contattarci e qualcuno ti contatterà a breve.