[عميق.]. [مقال] تقنية تجميع الفيديو والصوت القائمة على التعلم العميق من DeepBrain AI - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
October 29, 2021

AI Human هي تقنية تسمح لك بالتعبير بشكل طبيعي ليس فقط عن أصوات مثل الكلام البشري والتجويد، ولكن أيضًا عن الوجوه وتعبيرات الوجه والحركات من خلال الفيديو من خلال تعلم الوجوه البشرية استنادًا إلى تقنية الذكاء الاصطناعي للتعلم العميق ببساطة من خلال إدخال نص.

سنشرح اليوم نموذج التعلم المتعلق بتوليف الصور القائم على التعلم العميق ونقدم لك تقنية تنفيذ AI Human من DeepBrain AI.

 

 

1) نموذج تكنولوجيا التعلم الرئيسي

[خوارزمية تصنيف صور CNN]
إنها تقنية تحلل الصور من خلال تطبيق أوزان مشتركة (فلتر) مع شبكات كونفولوشن العصبية. تشير الميزة إلى البيانات المستخرجة من الميزات المختلفة من الإدخال.

 

<CNN Architecture>

 

وظيفة CNN هي تصنيف الصور والتعرف عليها.

[عصابة]

تعد شبكات Generative Advisarial Networks (GAN) نموذجًا معاديًا للتعلم العميق للشبكة العصبية يكرر التعلم حتى يستحيل تمييزه عن الشيء الحقيقي من خلال إنشاء «مزيف محتمل» حقيقي للوهلة الأولى.
بعد أن يقوم المُنشئ بإنشاء صورة من الضوضاء العشوائية، ينظر المُميز إلى الصورة الحقيقية والصورة المزيفة ويحدد الصواب/الخطأ لمعرفة المُنشئ.

 

 

 

2) تقنية DeepBrain AI الأصلية

 

 

<Lip Sync, Face Synthesis Technology>

طريقة Lip Sync هي تقنية تتحكم في سلوك الكلام (شكل الفم وحركة الفك وحركة الرقبة) لصورة من صوت عن طريق تجميع الصورة الأصلية بحيث يتطابق شكل الفم مع صوت معين عن طريق إدخال صوت تعسفي في الفيديو الذي يتحدث به شخص معين. بمعنى آخر، يمكنك تجميع صورة شخص تتحدث كمدخل لصوت عشوائي وصورة خلفية.
من أجل تطوير أنماط سلوكية مختلفة وفقًا للكلام، يتم إجراء ذلك عن طريق استخراج متجهات الميزات من صورة خطاب الشخصية للإبلاغ عن توزيع أنماط السلوك، وتطوير الأنماط السلوكية وفقًا للكلام من خلال تعلم متجهات الميزات من الكلام.

 

<Real-time Video Synthesis Technology>

كانت DeepBrain AI أول شركة في العالم تنجح في تجميع الصورة في الوقت الفعلي من خلال تطوير تقنية تحسين العمليات. في الأساس، هناك حاجة إلى ثلاث تقنيات رئيسية لتنفيذ توليف الفيديو الذي يمكنه التواصل مع العملاء في الوقت الفعلي. الأول هو تقنية التنسيب. لتحسين سرعة تركيب الصور، قمنا بتطوير وتطبيق تقنية معالجة الدفعات الخاصة بنا. من خلال معالجة طلبات التجميع المتعددة في وقت واحد، من الممكن تقليل وقت الاستجابة المطلوب لتوليف الصور. ثانيًا، إنها تقنية تحسين خادم ذاكرة التخزين المؤقت. نظرًا لأنه يمكن تحويل معظم المحادثات إلى بيانات والاحتفاظ بها، يتم إنشاء الأسئلة والمحادثات التي يُتوقع استخدامها بشكل متكرر على خادم ذاكرة التخزين المؤقت بحيث يمكن نقل الفيديو بسرعة في الوقت الفعلي. وأخيرًا، إنها تقنية Idle Framing. يكون التعبير طبيعيًا أثناء تحدث نموذج الذكاء الاصطناعي، ولكن إذا كان المستخدم ثابتًا أثناء التحدث، فقد يشعر المستخدم بأنه غير طبيعي للغاية. للتغلب على ذلك، يمكن تقليل الفجوة من خلال إعطاء المستخدم شعورًا بأنه يستمع بحركات طبيعية أثناء التحدث.

Most Read

Most Read

دعونا نبقى على اتصال

فريقنا جاهز لدعمك في رحلتك البشرية الافتراضية. انقر أدناه للتواصل وسيتواصل معك شخص ما قريبًا.