AI Human هي تقنية تسمح لك بالتعبير بشكل طبيعي ليس فقط عن أصوات مثل الكلام البشري والتجويد، ولكن أيضًا عن الوجوه وتعبيرات الوجه والحركات من خلال الفيديو من خلال تعلم الوجوه البشرية استنادًا إلى تقنية الذكاء الاصطناعي للتعلم العميق ببساطة من خلال إدخال نص.
سنشرح اليوم نموذج التعلم المتعلق بتوليف الصور القائم على التعلم العميق ونقدم لك تقنية تنفيذ AI Human من DeepBrain AI.
1) نموذج تكنولوجيا التعلم الرئيسي
[خوارزمية تصنيف صور CNN]
إنها تقنية تحلل الصور من خلال تطبيق أوزان مشتركة (فلتر) مع شبكات كونفولوشن العصبية. تشير الميزة إلى البيانات المستخرجة من الميزات المختلفة من الإدخال.
<CNN Architecture>
وظيفة CNN هي تصنيف الصور والتعرف عليها.
[عصابة]
تعد شبكات Generative Advisarial Networks (GAN) نموذجًا معاديًا للتعلم العميق للشبكة العصبية يكرر التعلم حتى يستحيل تمييزه عن الشيء الحقيقي من خلال إنشاء «مزيف محتمل» حقيقي للوهلة الأولى.
بعد أن يقوم المُنشئ بإنشاء صورة من الضوضاء العشوائية، ينظر المُميز إلى الصورة الحقيقية والصورة المزيفة ويحدد الصواب/الخطأ لمعرفة المُنشئ.
2) تقنية DeepBrain AI الأصلية
<Lip Sync, Face Synthesis Technology>
طريقة Lip Sync هي تقنية تتحكم في سلوك الكلام (شكل الفم وحركة الفك وحركة الرقبة) لصورة من صوت عن طريق تجميع الصورة الأصلية بحيث يتطابق شكل الفم مع صوت معين عن طريق إدخال صوت تعسفي في الفيديو الذي يتحدث به شخص معين. بمعنى آخر، يمكنك تجميع صورة شخص تتحدث كمدخل لصوت عشوائي وصورة خلفية.
من أجل تطوير أنماط سلوكية مختلفة وفقًا للكلام، يتم إجراء ذلك عن طريق استخراج متجهات الميزات من صورة خطاب الشخصية للإبلاغ عن توزيع أنماط السلوك، وتطوير الأنماط السلوكية وفقًا للكلام من خلال تعلم متجهات الميزات من الكلام.
<Real-time Video Synthesis Technology>
كانت DeepBrain AI أول شركة في العالم تنجح في تجميع الصورة في الوقت الفعلي من خلال تطوير تقنية تحسين العمليات. في الأساس، هناك حاجة إلى ثلاث تقنيات رئيسية لتنفيذ توليف الفيديو الذي يمكنه التواصل مع العملاء في الوقت الفعلي. الأول هو تقنية التنسيب. لتحسين سرعة تركيب الصور، قمنا بتطوير وتطبيق تقنية معالجة الدفعات الخاصة بنا. من خلال معالجة طلبات التجميع المتعددة في وقت واحد، من الممكن تقليل وقت الاستجابة المطلوب لتوليف الصور. ثانيًا، إنها تقنية تحسين خادم ذاكرة التخزين المؤقت. نظرًا لأنه يمكن تحويل معظم المحادثات إلى بيانات والاحتفاظ بها، يتم إنشاء الأسئلة والمحادثات التي يُتوقع استخدامها بشكل متكرر على خادم ذاكرة التخزين المؤقت بحيث يمكن نقل الفيديو بسرعة في الوقت الفعلي. وأخيرًا، إنها تقنية Idle Framing. يكون التعبير طبيعيًا أثناء تحدث نموذج الذكاء الاصطناعي، ولكن إذا كان المستخدم ثابتًا أثناء التحدث، فقد يشعر المستخدم بأنه غير طبيعي للغاية. للتغلب على ذلك، يمكن تقليل الفجوة من خلال إعطاء المستخدم شعورًا بأنه يستمع بحركات طبيعية أثناء التحدث.