AI Human ist eine Technologie, mit der Sie nicht nur Stimmen wie menschliche Sprache und Intonation, sondern auch Gesichter, Gesichtsausdrücke und Bewegungen auf natürliche Weise per Video ausdrücken können, indem Sie menschliche Gesichter auf der Grundlage der Deep-Learning-KI-Technologie einfach durch Eingabe eines Textes lernen.
Heute werden wir das Lernmodell im Zusammenhang mit der auf Deep Learning basierenden Bildsynthese erläutern und Ihnen die AI Human-Implementierungstechnologie von DeepBrain AI vorstellen.
1) Hauptmodell der Lerntechnologie
[CNN-Bildklassifizierungsalgorithmus]
Es handelt sich um eine Technologie, die Bilder analysiert, indem sie gemeinsame Gewichtungen (Filter) mit Convolution Neural Networks anwendet. Merkmal bezieht sich auf Daten, die aus verschiedenen Merkmalen aus der Eingabe extrahiert wurden.
<CNN Architecture>
Die Funktion von CNN besteht darin, Bilder zu klassifizieren und zu erkennen.
[GAN]
Generative Adversarial Networks (GAN) ist ein feindliches Deep-Learning-Modell für neuronale Netzwerke, das das Lernen wiederholt, bis es unmöglich ist, es von der Realität zu unterscheiden, indem es auf den ersten Blick eine echte „wahrscheinliche Fälschung“ erzeugt.
Nachdem der Konstruktor ein Bild aus zufälligem Rauschen generiert hat, betrachtet der Diskriminator das wahre Bild und das falsche Bild und bestimmt wahr/falsch, um den Konstruktor zu lernen.
2) Die ursprüngliche Technologie von DeepBrain AI
<Lip Sync, Face Synthesis Technology>
Die Lip Sync-Methode ist eine Technologie, die das Sprachverhalten (Mundform, Kieferbewegung, Nackenbewegung) eines Bildes von einer Stimme steuert, indem das Originalbild so synthetisiert wird, dass die Form des Mundes einer bestimmten Stimme entspricht, indem eine beliebige Stimme in das von einer bestimmten Person gesprochene Video eingegeben wird. Mit anderen Worten, Sie können ein Personenbild, das als Eingabe einer beliebigen Stimme und eines beliebigen Hintergrundbilds spricht, synthetisieren.
Um verschiedene Verhaltensmuster je nach Sprache zu entwickeln, werden Merkmalsvektoren aus dem Sprachbild der Figur extrahiert, um die Verteilung der Verhaltensmuster zu beeinflussen, und Verhaltensmuster entsprechend der Sprache entwickelt, indem Merkmalsvektoren aus der Sprache gelernt werden.
<Real-time Video Synthesis Technology>
DeepBrain AI war das erste Unternehmen der Welt, dem es durch die Entwicklung einer Technologie zur Prozessoptimierung gelungen ist, Bilder in Echtzeit zu synthetisieren. Grundsätzlich werden drei Haupttechnologien benötigt, um eine Videosynthese zu implementieren, die in Echtzeit mit Kunden kommunizieren kann. Die erste ist die Platzierungstechnologie. Um die Geschwindigkeit der Bildsynthese zu optimieren, haben wir unsere eigene Stapelverarbeitungstechnologie entwickelt und angewendet. Durch die gleichzeitige Verarbeitung mehrerer Syntheseanforderungen ist es möglich, die für die Bildsynthese erforderliche Latenz zu reduzieren. Zweitens handelt es sich um eine Technologie zur Optimierung von Cache-Servern. Da die meisten Konversationen in Daten umgewandelt und gespeichert werden können, werden Fragen und Konversationen, von denen erwartet wird, dass sie wiederholt verwendet werden, auf dem Cache-Server erstellt, sodass Videos schnell und in Echtzeit übertragen werden können. Und schließlich ist es die Idle Framing-Technologie. Der Ausdruck ist natürlich, während das Modell der künstlichen Intelligenz spricht, aber wenn der Benutzer beim Sprechen stationär ist, kann sich der Benutzer sehr unnatürlich fühlen. Um dies zu überwinden, kann die Lücke minimiert werden, indem dem Benutzer das Gefühl vermittelt wird, dass er beim Sprechen mit natürlichen Bewegungen zuhört.