هل ستأتي مذيعات الذكاء الاصطناعي قريبًا؟ - الذكاء الاصطناعي العميق

Updated on
July 5, 2024
|
Event & Webinar
Published
September 20, 2022

فحص الأخبار التلفزيونيةيتحدث مايكل ديب مع جو مورفي من شركة Deep Brain AI، وهي شركة تقنية تقوم بإنشاء نسخ رقمية من مذيعي الأخبار التلفزيونية لمنافذ البيع في الصين وكوريا الجنوبية، حول كيفية عمل التكنولوجيا والقضايا الأخلاقية المحيطة بها واحتمال أن نرى مذيعين رقميين على شاشات الولايات المتحدة.

تخيل لو تمكنت شبكة أو محطة تلفزيونية من إنشاء نسخة رقمية قائمة على الذكاء الاصطناعي من مذيعها الرئيسي، مما يسمح لها بالقيام ببعض الضغط على أجزاء من المهمة.

يحدث هذا بالفعل في كوريا الجنوبية والصين، حيث تعمل شركة Deep Brain AI الكورية الجنوبية مع أربع شبكات مختلفة على مذيعي النسخ الرقمية الذين يقرؤون ملخصات الأخبار.

في محادثة Talking TV هذه، يتحدث جو مورفي، مدير تطوير الأعمال في Deep Brain AI، عن التنفيذ هناك، وكيف تعمل التكنولوجيا الأساسية وكيف يعالج عملاؤها المخاوف الأخلاقية المحتملة حول استخدام النسخ الرقمية. كما يناقش ما إذا كان المذيعون الأمريكيون قد يدخلون اللعبة.

مايكل ديب: Deep Brain AI هي شركة تستخدم الذكاء الاصطناعي لإنشاء توائم رقمية لأشخاص حقيقيين أو أشخاص رقميين جدد تمامًا. لقد عملوا مع المذيعين في كل من كوريا الجنوبية والصين لإنشاء إصدارات افتراضية من المذيعين هناك لتحديثات الأخبار الآلية على مدار اليوم.

أنا مايكل ديب، محرر فحص الأخبار التلفزيونية، وهذا هو Talking TV، البودكاست الذي يجلب لك محادثات ذكية حول أعمال البث. قريباً، محادثة مع جو مورفي، مدير تطوير الأعمال في Deep Brain AI. إن ظهور هذه التكنولوجيا وتطبيقها للأخبار يفتح مجموعة من الأسئلة الفنية والأخلاقية، وسأطرح بعضًا منها في لحظة.

أهلا بك, جو مورفي, في Talking TV.

جو مورفي: مرحبا، مايكل. شكرا لاستضافتي. أنا متحمس لوجودي هنا.

سعيد لوجودك هنا. جو، أولاً، سؤال واضح: لماذا تقوم أي مؤسسة إخبارية شرعية بذلك، بإنشاء نسخة افتراضية من أحد مذيعيها من أجل البث على الهواء؟

نعم، بالنسبة لي، تبدو هذه إجابة واضحة لأنني بينما كنت أتحدث إلى وكالات الأنباء في أمريكا الشمالية، فإنهم جميعًا يواجهون نفس التحدي. في كل عام يواجهون تحديات لإنجاز المزيد بتكلفة أقل أو عدم الحصول على زيادات في الميزانية، لكننا نحتاج إلى المزيد من المحتوى. ويبدو إنشاء توأم رقمي أو إنسان افتراضي لوجه الامتياز أو المذيع الرئيسي وكأنه ضربة حظ لأنه يمكنك الآن إنشاء المزيد من المحتوى وخفض التكاليف ويمكنك إنشاء محتوى مخصص بشكل أسرع ثم نشره في قنوات مختلفة ربما لم يكن من الممكن الوصول إليها من قبل. لذا، فإن الأمر كله يتعلق حقًا بالمزيد وأسرع وأفضل.

لقد ذكرت [هذه التكنولوجيا في] كوريا الجنوبية والصين. أين يتم استخدام هذه الأشياء على وجه التحديد حتى الآن؟

يقع المقر الرئيسي لشركة Deep Brain نفسها في سيول، كوريا، وأنا في الواقع جزء من فريق من مديري تطوير الأعمال الذين يجلبون هذه التكنولوجيا إلى أمريكا الشمالية. لدينا السبق في آسيا مع هذه التكنولوجيا. لدينا أربع شبكات، اثنتان في كوريا واثنتان في الصين عملت معنا لإنشاء توأم رقمي لمذيعها الرئيسي. في كوريا، هي MBN وأريرانج. ثم في الصين هناك BTV و CCTV. تقوم جميع هذه المحطات الإخبارية الأربع ببث مذيعين باستخدام تقنية من Deep Brain AI.

وهل يستخدم كل منهم نقطة ربط واحدة في كل شبكة؟

نعم، في هذا الوقت، اختار كل منهم نوعًا ما أن يأخذ - وجه الامتياز الخاص به أو المذيع الرئيسي الخاص به وصنعوا توأمًا رقميًا لذلك الشخص. ونحن نرى الاهتمام من المراسي الآخرين داخل منظماتهم في الوقت الحالي. إنه متمسك إلى حد كبير بوجه الامتياز.

هل هذه مشاريع تجريبية، أو منذ متى تم تنفيذها؟

في الجزء الأكبر من العام الماضي، أي في عام 2021، كان هناك مذيعون على تلفزيون كوريا ثم في أواخر عام 2021، بدأوا في الصين.

الآن، كما أفهمها، أنت لا تحاول خداع المشاهدين هنا. يتم تصنيف هذه المراسي الافتراضية على هذا النحو؟

نعم. نحن لا نحاول خداع الناس ولا نحاول استبدال الناس. هذان هما السؤالان اللذان أحصل عليهما كثيرًا. سأقول عند استخدام مذيعي الذكاء الاصطناعي، تضع محطة الأخبار رمزًا يقول مذيع الذكاء الاصطناعي، حتى يعرف الناس أنها تبدو مثل المذيع الرئيسي. يبدو وكأنه المذيع الرئيسي. ولكن ما يتم تقديمه الآن هو في الواقع نسخة الذكاء الاصطناعي من تلك المذيع التي تقدم الأخبار لي.

وكيف يتم تقديم ذلك؟ هل هو شيء في الجزء السفلي من الشاشة في الكيرون؟

نعم. عادةً ما يكون هناك شيء موجود في الجزء السفلي من الشاشة في الكيرون. لقد قدمت بعض اللقطات لكم يا رفاق، وسترون الحروف الإنجليزية الفعلية AI متبوعة ببعض الرموز الكورية التي تشير إلى أن هذا هو مذيع الذكاء الاصطناعي وهذا نوع من البروز على الشاشة أثناء العرض التقديمي.

وجود هذا النوع من العلامات، هل هذه ضرورة أخلاقية فيما يتعلق بشركتك؟

إنها توصية من شركتنا، ولكن في نهاية المطاف، إنه قرار من قبل الشبكة وكيف يريدون التفاعل مع جمهورهم. أتخيل أنها مفاوضات بين الشبكة والموهبة، لكنها حقًا خارج نطاقنا. يحدث هذا النوع خلف الأبواب المغلقة. يسعدنا جدًا أن نرى الطريقة الأخلاقية والمسؤولة التي يتم استخدامها بها. ولكن مرة أخرى، ليس من حقنا حقًا إخبار الناس بكيفية القيام بذلك.

حسنًا، هاتان سوقان مختلفتان جدًا بالفعل. كوريا الجنوبية هي مجتمع ديمقراطي. في الصين، إنها وسائل الإعلام التي تسيطر عليها الدولة. كما تعلمون، يتم التحكم فيه من قبل الحزب. إذن، هل كانت هناك أنواع مختلفة من المحادثات؟ كما تقول، كانت تلك المحادثات داخلية تمامًا لتلك المنظمات أم أنها ذهابًا وإيابًا معك على الإطلاق؟

كانت المحادثات بين الشبكة والموهبة عبارة عن أننا تقريبًا خلف الأبواب المغلقة. نحن لسنا مطلعين على تلك المعلومات. أستطيع أن أقول من وجهة نظر التنفيذ، البنية التحتية السحابية التي تم استخدامها وعلى العموم البعض هي السحابة، وبعضها في مكان العمل. وليس من أجل الإفراط في التقنية هنا...

لا بأس، يمكنك الحصول على التقنية.

لذلك، أود أن أقول في السوق الصينية، إنهم يريدون القيام بالكثير من العمل على أرض الواقع. يمكنك أن تتخيل أن كل شيء يتم التحكم فيه في موقع مركزي، حيث تم تنفيذ المزيد في التطبيقات الكورية في السحابة.

فقط للعودة إلى أخلاقيات النشر هنا... هل هناك كتاب قواعد أخلاقية هنا أو إذا كان الأمر كذلك، فمن يكتبه؟ هل أنت كشركة؟ هل أنت في مناقشة مع فروع [وسائل الإعلام] الأخرى؟ أنت تفكر في نقل هذا إلى الولايات المتحدة. من الذي يضع المبادئ التوجيهية الأخلاقية؟

أود أن أقول إنها صناعة سريعة النمو مع البشر الافتراضيين والوسائط في مسار تصادمي ونحن نتعلم نوعًا ما ونحن نمضي قدمًا. هناك اعتبارات أخلاقية، وهناك اعتبارات أمنية. ولكن في نهاية المطاف، ننظر إلى هذا كأداة أخرى لإنشاء المحتوى. إنها أداة جديدة وهناك أسئلة جديدة حولها، ولكنها في الحقيقة مجرد أداة لإنشاء محتوى فيديو جديد. تمامًا كما أن محرر الفيديو هو أداة قد تستخدمها في برامج تحرير الصوت، فهو أو يمكنك استخدام الذكاء الاصطناعي كأداة أخرى. وأعتقد أنك ترى الذكاء الاصطناعي يتم تطبيقه في أماكن متعددة طوال عملية إنتاج الفيديو.

بالتأكيد هو كذلك. أعني، يعد الذكاء الاصطناعي والتعلم الآلي جزءًا كبيرًا من سير العمل الآن. ولكن هذه فئة مختلفة تمامًا. هذا يعيش بطريقته الخاصة. أنت تتحدث عن تكرار شخص وتقديمه أو تلفيقه. إنها بنية مختلفة تمامًا عن التطبيقات الأخرى، والتي أعتقد أنها أكثر تعقيدًا بكثير وليست مثيرة للجدل حقًا بخلاف مخاوف الناس بشأن التخلص من الوظائف، على الأرجح.

أريد أن أتطرق إلى حقيقة أن هذا يدخل في منطقة عبور خطيرة مع مقاطع فيديو مزيفة، شاهدناها جميعًا، والتي تُستخدم على نطاق واسع في حملات التضليل عبر الإنترنت ووسائل التواصل الاجتماعي. لذا، إذا اتسع هذا النوع من التكنولوجيا في استخدامه المشروع بين المؤسسات الإخبارية، فما نوع الانفتاح الذي تعتقد أنه يخلق المزيد من انتشار التزييف العميق؟

هذا سؤال رائع. أعتقد أنني أريد أن أعود خطوة إلى الوراء وأقول إن ما نقوم به مختلف تمامًا عن تقنية deepfake. العمل الذي نقوم به هو تجميع فيديو كامل. لذلك، نأخذ شخصًا حقيقيًا، ونقوم بتصوير فيديو، وتصوير الفيديو هذا هو بيانات التدريب الخاصة بنا لإنشاء نموذج ذكاء اصطناعي لذلك الشخص. لقد اختاروا الطريقة بأكملها. ثم عند إنشاء هذا النموذج، يتم ربطه بالأمان داخل السحابة. وعادةً ما يتم توسيع حقوق الصورة أو حقوق الوجه إلى هذا النموذج.

لذلك، فإن المحطة مقبولة قانونًا لاستخدام هذا النموذج للأغراض المقصودة التي تم التعاقد عليها جميعًا. لذلك، تجميع الفيديو النقي، والفحوصات القانونية في كل خطوة على الطريق. إن التأكد من اشتراك الجميع وانضمامهم هو ما نعمل عليه في Deep Brain.

يبدأ التزييف العميق بفيديو حقيقي، لذلك تحتاج إلى تصوير شخص حي ثم تحتاج إلى لصق وجه شخص حي آخر أعلى الفيديو الذي صورته. لذلك، بالفعل في الخطوة الأولى، نحن مختلفون. في تقنية تركيب الفيديو، ليست هناك حاجة للتصوير. نقوم بالتصوير في يوم واحد لجلسة تدريب بالفيديو، ولكن بعد ذلك، يتم إنشاء كل الفيديو الذي تم إنشاؤه بالكامل بواسطة الذكاء الاصطناعي. ليست هناك حاجة لإطلاق النار.

هل هذا الفيديو الذي تم إنشاؤه يحمل علامة مائية بطريقة ما يمكنك من المصادقة عليه؟

نعم، يمكننا أن نوضح من خلال البيانات الوصفية أنها جاءت من حلنا. وهناك أيضًا ضوابط وتوازنات يمكننا وضعها حتى لو كانت بسيطة مثل فلاتر النص التي إذا أرادت الشبكة وضعها، فيمكنها تقييد ما يمكن أن يقوله نموذج الذكاء الاصطناعي هذا وما لا يمكنه قوله.

دعونا نتعمق أكثر في كيفية دمج هذا معًا، من الناحية الفنية. لذلك، ذكرت أن لديك الشخص والموهبة، وتجلس في الاستوديو وتجعلهم يسجلون. قرأوا أي عدد من الجمل أثناء تصويرهم وتسجيلهم الصوتي؟

عادةً ما نقوم بإعداد برنامج نصي وسيحتوي هذا النص على ما بين 500 و 1000 جملة أو كلمة. ما نحاول فعله حقًا بهذه الجمل والألفاظ هو معرفة كيفية تحريك أفواههم بكل الأصوات المختلفة وجميع الكلمات المختلفة والانتقالات من كلمة إلى أخرى، فترات التوقف بينهما. لذلك، باستخدام هذا البرنامج النصي الذي نقوم بإعداده، هذه هي بيانات التدريب لنماذج التعلم العميق لدينا.

وكيف تفعل ذلك؟ كيف يتم إعداد الكاميرات على وجه الشخص؟

عادةً ما تكون الموهبة أمام شاشة خضراء. نطلق النار على بعد حوالي متر أو مترين، على بعد متر ونصف، بطلقة وجهاً لوجه. ونحاول الحصول على تغطية كاملة من الرأس إلى القدم، نوعًا من الأعلى إلى الأسفل. ولدينا أيضًا خيار التصوير على الزوايا. لدينا عملاء يريدون تبديل الزوايا أثناء عرض الوسائط، حتى نتمكن من القيام بذلك أيضًا. ولكن في المرحلة الأكثر بساطة، إنها لقطة مباشرة وجهاً لوجه، لقطة لكامل الجسم أمام شاشة خضراء.

لذا، يرتدون مجموعة واحدة من الملابس، ربما خلال جلسة التصوير هذه؟ هل يمكنك تغيير ملابسهم مثل الدمى الورقية بتكرارات مختلفة عندما يتم بثها على الهواء؟

نعم. لذلك، عادةً عندما نقوم بالتصوير ليوم التدريب، سنستعرض ملابس متعددة وتسريحات شعر متعددة. في خارطة الطريق الخاصة بنا توجد القدرة على تغيير تسريحة الشعر والزي دون الحاجة فعليًا إلى إعادة التصوير.

أثناء نشر هذا، هل يستخدم هذا التوأم التعلم الآلي لتحسين حقيقته نوعًا ما؟ أم أن الشيء الذي تحصل عليه من تلك الجلسة هو ما لديك للمضي قدمًا؟

إنه الأخير. الشيء الذي نبتكره، النموذج الذي ننشئه خارج الجلسة هو مجرد محرك. إنه لا يتعلم باستمرار. إنه محرك يقوم بإدخال النص وتصدير الفيديو. وأظهر هذا الفيديو أنه يتم تصديره، حيث تم تطبيق التعلم العميق. كيف يتحدث هذا الشخص؟ كيف يحركون أفواههم؟ كيف يرمشون؟ متى يتنفسون؟ كل هذا هو السلوك المكتسب الذي يدخل في النموذج. يمكننا أن نتعلم من ذلك.

من جلسة التسجيل تلك إلى الوقت الذي يمكن فيه إخراج توأم رقمي، ما هي المدة التي تستغرقها هذه العملية؟

هذا سؤال رائع. إنها في الواقع حوالي ثلاثة أسابيع من وقت الماكينة.

الجانب الآخر من هذا هو أن شركتك تصنع أيضًا هؤلاء الأشخاص الرقميين قطعة قماش كاملة، وقد صنعت واحدًا منهم لنا في فحص الأخبار التلفزيونية. لماذا لا نلقي نظرة سريعة على ذلك الآن؟

رائع.

هذا شيء آخر. ما الذي يدخل في صنع هذا الشخص المبني بالكامل؟

نبدأ بالكثير من نفس عمليات التعلم العميق. كل ما في الأمر هو أن الفيديو الذي يدخل، نستخدم خوارزمية ذكاء اصطناعي مختلفة لبناء وجه لذلك الشخص. لذلك، سنبدأ بإطار شخص حقيقي. ولكن بعد ذلك خذ وجهًا اصطناعيًا تمامًا واربط هذين الاثنين معًا أثناء عملية التعلم العميق.

هل كانت لديك امرأة تقف في الاستوديو؟ كنت تطلق النار عليها وتضع وجهًا مختلفًا على جسدها؟

إنه ليس مجرد شخص واحد. إنه تقدير للعديد من الأشخاص المختلفين.

كم عدد الأنواع المختلفة من الصور الرمزية، إذا استطعنا تسميتها بذلك، هل لديك؟ هل هو عدد لا حصر له من الأنواع المختلفة من الناس، والأجناس المختلفة، والأعمار، والأعراق، وما إلى ذلك؟

نعم. هذا خارج الموضوع قليلاً، لكننا قمنا للتو بإسقاط NFT لـ 5,000 شخص افتراضي في الصين، وكان إطلاقًا ناجحًا للغاية بالنسبة لنا. والآن لدينا 5000 أخرى جاهزة للانطلاق، وهي حقًا لا حصر لها تقريبًا في كمية الاختلافات والبشر الافتراضيين الذين يمكننا خلقهم.

انتظر. ما الذي تحصل عليه عند شراء NFT لشخص افتراضي؟ ما هو المنتج؟

تم ربطه بما يعادل عيد الحب في الصين. وستحصل على صورة الشخص، وكانوا يطلقون عليها اسم صديقهم الافتراضي أو صديقته الافتراضية. الآن يمكن ربط كل نموذج من هذه النماذج بمنصة البرامج الخاصة بنا، والتي تسمى AI Studios. وإذا اخترت ربطه بـ AI Studios، فيمكنك التسجيل ويمكنك إنشاء مقاطع فيديو مع هذا الشخص الافتراضي الذي اشتريته للتو من خلال قطرة NFT هذه.

أنا لا أعرف حتى... أنا أعالج هذا. إنه مثل بليد رانر إلى حد ما.

نعم، كانت هذه تجربة ممتعة للغاية وسوق NFT مثير للغاية بالنسبة لنا، ولكن ربما يكون خارج نطاق ما نقوم به مع الأخبار ووسائل الإعلام.

لذا عد إلى ذلك. هل لديك أي مذيعين أمريكيين يركلون الإطارات هنا؟

نعم. لذا، فإن جميع الأسماء الكبيرة في الولايات المتحدة تتخلى عن الإطارات الآن. أعتقد أن الولايات المتحدة بشكل عام أكثر حذرًا وهم يرون نوعًا ما كيف يتم ذلك. لكنها حقًا تحصل على اعتماد سريع وسريع في جميع أنحاء آسيا. وفي رأينا، سيأتي قريبًا جدًا إلى الولايات المتحدة. لا يمكنني مشاركة الكثير من التفاصيل حول ذلك، لكنه سيكون هنا قريبًا.

حسنًا، أولئك الذين تتحدث معهم عن هذا، ما الذي يتحدثون عنه للتنفيذ المحتمل؟ نفس الشيء الذي نراه في كوريا؟

نعم، أود أن أقول إن حالة الاستخدام الأساسية هي هذه المقاطع الصغيرة القصيرة التي يتم تصويرها على مدار اليوم حيث تكون الموهبة مشغولة بالعمل على قصة أو في الميدان، ولكنها تحتاج إلى الحصول على بعض التحديثات للجمهور. لذلك، كل ساعة أو نحو ذلك حتى يتمكن المنتجون في الاستوديو من إنشاء هذه المقاطع وتقديم هذه التحديثات، إليك ما نعمل عليه لعرض الليلة أو إليك آخر الأخبار العاجلة التي سنتحدث عنها أكثر هذا المساء. وبالتالي فإن تلك التخفيضات والشرائح الصغيرة هي المكان الذي نراه يكمل تغذية المحتوى لوجه الامتياز.

وهكذا، فيما يتعلق بالمكان الذي سيتكرر فيه هذا العام المقبل، نظرنا إلى هذا المثال الذي أنشأته لنا وهناك نوع من إعادة الضبط غير البشري الغريب الذي تقوم به المرأة بين جملتها. هناك، كما تعلمون، نوع من «اللاطبيعية» في ذلك. كيف تقوم بتنعيم الحواف هناك؟

ملاحظ جدا لك. لذلك هذا هو النموذج التجريبي الذي نستخدمه. تم تصميم النماذج الفعلية التي نبتكرها لوسائل البث بكل تلك الأشياء الصغيرة التي تراها. والنموذج التجريبي هو نوع من عملية الضبط التي نمر بها لتجهيزها لوسائل البث. لذلك، هناك اختلاف بسيط في الأداء، ولكن عندما نمر بطبقة الضبط الإضافية، فهذا هو المكان الذي نصل فيه جنبًا إلى جنب. من الصعب جدًا تحديد الذكاء الاصطناعي والشخص الحقيقي.

حسنًا، يمكن لأم واحدة فقط معرفة ذلك، أو ربما لا تستطيع حتى ذلك. هذا بالتأكيد شيء آخر. أنا مهتم جدًا بالتعليقات الواردة من الجمهور. إذا كانت لديك أفكار حول الأخلاق، والجانب التقني لتطبيق مثل هذه التكنولوجيا، وما هي الآثار التي يمكن أن تترتب على وسائل الإعلام الأمريكية المحلية والوطنية، فأنا أحب أن أسمعها. لذا، يرجى تقديم ملاحظات لنا.

هذا هو كل الوقت المتاح لدينا، لذلك علينا أن نتركه هناك. شكرًا لجو مورفي من Deep Brain AI لوجوده هنا اليوم. شكرا لك، جو.

حسناً. شكرا لك، مايكل.

Most Read

Most Read

دعونا نبقى على اتصال

فريقنا جاهز لدعمك في رحلتك البشرية الافتراضية. انقر أدناه للتواصل وسيتواصل معك شخص ما قريبًا.