TV News CheckMichael Depp discute avec Joe Murphy de Deep Brain AI, une société technologique qui crée des copies numériques des présentateurs de journaux télévisés pour des chaînes de télévision en Chine et en Corée du Sud, sur le fonctionnement de la technologie, les problèmes éthiques qui l'entourent et la probabilité que des présentateurs numériques apparaissent sur les écrans américains.

Imaginez si une chaîne ou une chaîne de télévision pouvait créer une copie numérique basée sur l'IA de son présentateur principal, ce qui lui permettrait d'effectuer une petite partie du travail.

C'est déjà le cas en Corée du Sud et en Chine, où la société sud-coréenne Deep Brain AI travaille avec quatre réseaux différents sur des présentateurs de copie numérique lisant des brèves d'actualité.

Dans cette conversation Talking TV, Joe Murphy, responsable du développement commercial de Deep Brain AI, parle de la mise en œuvre sur place, du fonctionnement de la technologie sous-jacente et de la manière dont ses clients répondent aux préoccupations éthiques potentielles liées à l'utilisation de copies numériques. Il explique également si les radiodiffuseurs américains pourraient entrer dans le jeu.

Michael Depp : Deep Brain AI est une entreprise qui utilise l'intelligence artificielle pour créer des jumeaux numériques de personnes réelles ou de personnes numériques complètement nouvelles. Ils ont travaillé avec des diffuseurs en Corée du Sud et en Chine pour créer des versions virtuelles des présentateurs locaux pour des mises à jour automatisées tout au long de la journée.

Je suis Michael Depp, rédacteur en chef de TV News Check, et voici Talking TV, le podcast qui vous propose des conversations intelligentes sur le secteur de la radiodiffusion. À venir, une conversation avec Joe Murphy, responsable du développement commercial de Deep Brain AI. L'avènement de cette technologie et son application à l'actualité soulèvent toute une série de questions techniques et éthiques, et j'en poserai certaines dans un instant.

Bienvenue, Joe Murphy, sur Talking TV.

Joe Murphy : Bonjour Michael. Merci de m'avoir invitée. Je suis ravie d'être ici.

Contente que tu sois là. Joe, première question évidente : pourquoi une agence de presse légitime ferait-elle cela en créant une copie virtuelle de l'un de ses présentateurs afin de passer à l'antenne ?

Oui, cela me semble être une réponse évidente, car lorsque je discutais avec des agences de presse en Amérique du Nord, elles sont toutes confrontées au même défi. Chaque année, ils sont confrontés au défi de faire plus avec moins ou de ne pas obtenir d'augmentation de budget, mais nous avons besoin de plus de contenu. Et créer un jumeau numérique ou un humain virtuel représentant le visage ou le présentateur principal de leur franchise semble être une mince affaire, car vous pouvez désormais créer plus de contenu, réduire les coûts et créer du contenu personnalisé plus rapidement, puis le diffuser sur différentes chaînes qui n'étaient peut-être pas accessibles auparavant. Il s'agit donc vraiment de faire plus, plus vite et mieux.

J'ai mentionné [cette technologie] en Corée du Sud et en Chine. Où exactement ces éléments sont-ils utilisés jusqu'à présent ?

Deep Brain lui-même a son siège social à Séoul, en Corée, et je fais partie d'une équipe de responsables du développement commercial qui introduit cette technologie en Amérique du Nord. Grâce à cette technologie, nous avons une longueur d'avance en Asie. Nous avons quatre réseaux, deux en Corée et deux en Chine, qui ont travaillé avec nous pour créer un jumeau numérique de leur point d'ancrage principal. En Corée, il s'agit de MBN et d'Arirang. Et puis en Chine, c'est BTV et CCTV. Ces quatre chaînes d'information diffusent des présentateurs utilisant la technologie de Deep Brain AI.

Et ils utilisent chacun un point d'ancrage unique sur chaque réseau ?

Oui, pour le moment, ils ont chacun choisi de prendre le visage de leur franchise ou celui de leur présentateur principal et ont créé un jumeau numérique de cette personne. Et nous constatons de l'intérêt de la part d'autres points d'ancrage au sein de leurs organisations actuelles. Cela correspond à peu près au visage de la franchise.

S'agit-il de projets pilotes ou depuis combien de temps existent-ils ?

Pendant la majeure partie de l'année dernière, donc en 2021, il y a eu des présentateurs sur Korea TV, puis fin 2021, ils ont commencé en Chine.

D'après ce que j'ai compris, vous n'essayez pas de duper les spectateurs. Ces ancres virtuelles sont étiquetées comme telles ?

Oui Nous n'essayons pas de duper les gens et nous n'essayons pas de les remplacer. Ce sont les deux questions que je reçois le plus souvent. Je dirais que lorsque les ancres IA sont utilisées, la chaîne d'information affiche un symbole indiquant « ancre IA », afin que les gens sachent que cela ressemble au présentateur principal. On dirait le présentateur principal. Mais ce qui est présenté en ce moment est en fait la version IA de ce présentateur qui me présente l'actualité.

Et comment est-ce présenté ? Est-ce quelque chose en bas de l'écran dans le chyron ?

Oui En général, il s'agit d'un élément situé en bas de l'écran, dans le chyron. Je vous ai fourni quelques images, et vous verrez les lettres anglaises AI suivies de quelques symboles coréens qui indiquent qu'il s'agit de l'ancre de l'IA et qui apparaissent en quelque sorte bien en évidence à l'écran pendant la présentation.

Avoir ce type d'étiquetage, est-ce une nécessité éthique en ce qui concerne votre entreprise ?

C'est une recommandation de notre entreprise, mais en fin de compte, il s'agit d'une décision du réseau et de la manière dont il souhaite interagir avec son public. J'imagine qu'il s'agit d'une négociation entre le réseau et les talents, mais c'est vraiment hors de notre portée. Ce genre de choses se passe à huis clos. Nous sommes très heureux de constater qu'ils sont utilisés de manière éthique et responsable. Mais encore une fois, ce n'est pas vraiment à nous de dire aux gens comment procéder.

Eh bien, il s'agit déjà de deux marchés très différents. La Corée du Sud est une société démocratique. En Chine, ce sont des médias contrôlés par l'État. C'est très important, vous savez, c'est contrôlé par le parti. Alors, y a-t-il eu différents types de conversations ? Vous dites que ces conversations étaient entièrement internes à ces organisations ou qu'il s'agissait de va-et-vient avec vous ?

Les conversations entre le réseau et les talents se sont déroulées quasiment à huis clos. Nous ne sommes pas au courant de ces informations. Du point de vue de la mise en œuvre, je peux dire que l'infrastructure cloud qui a été utilisée et, dans l'ensemble, est basée sur le cloud, d'autres sur site. Et pour ne pas être trop technique...

C'est bon, tu peux passer à la technique.

Donc, je dirais que sur le marché chinois, ils voulaient faire beaucoup plus sur place. Vous pouvez imaginer que tout est contrôlé depuis un emplacement central, alors que dans les implémentations coréennes, cela se faisait davantage dans le cloud.

Pour en revenir à l'éthique du déploiement... y a-t-il un règlement éthique en place ou, dans l'affirmative, qui l'a rédigé ? L'êtes-vous en tant qu'entreprise ? Êtes-vous en discussion avec d'autres branches [des médias] ? Vous envisagez de le déplacer aux États-Unis. Qui définit les directives éthiques ?

Je dirais que c'est un secteur en pleine croissance où les humains virtuels et les médias sont sur une trajectoire de collision et nous apprenons en quelque sorte au fur et à mesure. Il y a des considérations éthiques, il y a des considérations de sécurité. Mais en fin de compte, nous considérons qu'il s'agit d'un autre outil de création de contenu. C'est un nouvel outil qui soulève de nouvelles questions à son sujet, mais il ne s'agit en réalité que d'un outil pour créer de nouveaux contenus vidéo. Tout comme un éditeur vidéo est un outil que vous pouvez utiliser dans les éditeurs audio, c'est ou vous pourriez utiliser l'IA en est un autre. Et je pense que l'IA est appliquée à de multiples endroits tout au long du processus de production vidéo.

Absolument ça l'est. Je veux dire, l'IA et l'apprentissage automatique occupent désormais une place importante dans les flux de travail. Mais il s'agit d'une toute autre catégorie. Cela vit à sa manière. Vous parlez de reproduire une personne et de la présenter ou de la fabriquer. C'est une conception complètement différente de celle des autres candidatures, qui sont, je pense, beaucoup plus classiques et ne suscitent pas vraiment de controverse, si ce n'est les inquiétudes que les gens ont au sujet de la suppression éventuelle d'un emploi.

Je tiens à souligner qu'il s'agit d'un dangereux croisement avec les vidéos deepfake, que nous avons tous vues et qui sont largement utilisées dans les campagnes de désinformation sur Internet et les réseaux sociaux. Donc, si ce type de technologie élargit son utilisation légitime par les agences de presse, quel type d'ouverture créerait selon vous pour la poursuite de la prolifération des deepfakes ?

C'est une excellente question. Je pense que je voudrais prendre du recul et dire que ce que nous faisons est très différent de ce qu'est la technologie deepfake. Le travail que nous faisons est une synthèse vidéo complète. Donc, nous prenons une personne réelle, nous faisons un tournage vidéo, et ce tournage vidéo est constitué de nos données d'entraînement pour créer un modèle d'IA de cette personne. Ils ont opté pour la totalité du processus. Ensuite, lorsque ce modèle est créé, il est lié à la sécurité dans le cloud. Et généralement, les droits au portrait ou au visage sont étendus à ce modèle.

La station est donc légalement autorisée à utiliser ce modèle aux fins prévues, qui sont toutes sous-traitées. Donc, pure synthèse vidéo, contrôles juridiques à chaque étape. Chez Deep Brain, nous nous efforçons de nous assurer que tout le monde est inscrit et participe.

Un deepfake commence par une vraie vidéo. Vous devez donc filmer une personne en direct, puis coller le visage d'une autre personne en direct au-dessus de la vidéo que vous avez tournée. Donc, dès la première étape, nous sommes différents. Dans la technologie de synthèse vidéo, aucun tournage n'est nécessaire. Nous tournons une journée pour une session de formation vidéo, mais après cela, toutes les vidéos générées sont entièrement générées par l'IA. Il n'est pas nécessaire de tirer.

Cette vidéo générée est-elle filigranée d'une manière que vous puissiez l'authentifier ?

Oui, nous pouvons montrer à l'aide de métadonnées que cela provient de notre solution. Et il existe également des freins et contrepoids que nous pouvons mettre en place, même aussi simplement que des filtres de texte qui, si un réseau le souhaite, peuvent limiter ce que ce modèle d'IA peut dire et ne peut pas dire.

Examinons un peu plus en détail la façon dont cela se produit, techniquement. Donc, vous avez dit que vous avez la personne, le talent, qu'ils viennent s'asseoir dans un studio et que vous leur demandez d'enregistrer. Ils lisent un certain nombre de phrases pendant qu'ils sont photographiés et enregistrés ?

En général, nous préparons un script qui contiendra entre 500 et 1 000 phrases ou énoncés. Ce que nous essayons vraiment de faire avec ces phrases et ces énoncés, c'est d'apprendre comment ils bougent leur bouche avec les différents sons et les différents mots, ainsi que les transitions d'un mot à l'autre, les pauses entre les deux. Donc, en utilisant le script que nous préparons, ce sont les données d'entraînement pour nos modèles d'apprentissage profond.

Et comment s'y prendre ? Comment sont installées les caméras sur le visage de la personne ?

Généralement, le talent se trouve devant un écran vert. Nous tirons à environ un ou deux mètres, à un mètre et demi de distance, en prise de vue frontale. Et nous essayons d'obtenir une couverture complète de la tête aux pieds, en quelque sorte de haut en bas. Et nous avons également la possibilité de prendre des photos en angle. Nous avons des clients qui souhaitent changer d'angle lors de la présentation des médias, afin que nous puissions le faire également. Mais dans la phase la plus simpliste, il s'agit d'une prise de vue directe, du corps entier, devant un écran vert.

Donc, ils ne portent qu'un seul ensemble de vêtements, probablement pendant ce tournage ? Pouvez-vous changer leurs vêtements comme des poupées en papier à différentes reprises lorsqu'ils passent à l'antenne ?

Oui. Donc, en général, lorsque nous faisons le tournage de la journée d'entraînement, nous examinons plusieurs tenues et plusieurs coiffures. Sur notre feuille de route figure la possibilité de changer de coiffure et de tenue sans avoir à refaire une nouvelle prise de vue.

Au fur et à mesure que vous le déployez, ce jumeau utilise-t-il l'apprentissage automatique pour améliorer sa vérisimilitude ? Ou est-ce que ce que vous retirerez de cette session sera ce que vous aurez obtenu à l'avenir ?

C'est la dernière. L'objet que nous créons, le modèle que nous créons à partir de la session, n'est alors qu'un moteur. Il ne s'agit pas d'un apprentissage continu. C'est un moteur qui saisit du texte et exporte des vidéos. Et cette vidéo qu'elle est en train d'exporter, c'est là que le deep learning a été appliqué. Comment parle cette personne ? Comment bougent-ils leur bouche ? Comment clignent-ils des yeux ? Quand respirent-ils ? Tout cela est un comportement appris qui entre dans le modèle. Nous pouvons en tirer des leçons.

De cette session d'enregistrement au moment où il peut cracher un jumeau numérique, combien de temps dure ce processus ?

C'est une excellente question. Cela représente en fait environ trois semaines de temps de machine.

D'un autre côté, votre entreprise crée également ces personnes numériques dans leur intégralité, et vous en avez créé une pour nous à TV News Check. Pourquoi ne pas y jeter un coup d'œil tout de suite ?

Génial.

C'est autre chose. Qu'est-ce qui fait de cette personne entièrement construite ?

Nous commençons par à peu près les mêmes processus que l'apprentissage profond. C'est juste que lors de la diffusion de la vidéo, nous utilisons un algorithme d'IA différent pour créer un visage pour cette personne. Nous allons donc commencer par un cadre d'une personne réelle. Ensuite, prenez un visage complètement synthétique et associez les deux pendant le processus d'apprentissage en profondeur.

Vous aviez une femme debout dans le studio ? Tu étais en train de la photographier et tu superposais un visage différent à son corps ?

Il ne s'agit pas vraiment d'une seule personne. C'est une estimation de nombreuses personnes différentes.

Combien de types d'avatars différents, si on peut les appeler ainsi, possédez-vous ? S'agit-il d'un nombre infini de types de personnes différents, de sexes, d'âges, de races, etc. ?

Oui C'est un peu hors sujet, mais nous venons de lancer un NFT de 5 000 humains virtuels en Chine, et ce lancement a été très réussi pour nous. Et maintenant, nous en avons 5 000 autres prêts à être utilisés, et le nombre de variations et d'humains virtuels que nous pouvons créer est presque infini.

Tiens bon. Qu'obtenez-vous lorsque vous achetez le NFT d'une personne virtuelle ? Qu'est-ce que le produit ?

C'était lié à ce qui était l'équivalent de la Saint-Valentin en Chine. Et vous obtenez le portrait de la personne, et ils l'appelaient son petit ami virtuel ou sa petite amie virtuelle. Désormais, chacun de ces modèles peut être lié à notre plateforme logicielle, appelée AI Studios. Et si vous choisissez de le lier à AI Studios, vous pouvez vous inscrire et créer des vidéos avec cette personne virtuelle que vous venez d'acheter via cette offre NFT.

Je ne sais même pas... je suis en train de traiter ça. C'est comme Blade Runner dans une certaine mesure.

Oui, c'était plutôt une expérience amusante et le marché des NFT est très intéressant pour nous, mais cela dépasse probablement un peu le cadre de ce que nous faisons avec les actualités et les médias.

Revenons-en donc à cela. Avez-vous des radiodiffuseurs américains qui font bouger les choses ici ?

Oui Donc, tous les grands noms américains sont en train de changer les pneus en ce moment. Je pense que les États-Unis en général sont un peu plus prudents et ils sont en quelque sorte en train de voir comment cela se passe. Mais son adoption est vraiment rapide et rapide dans toute l'Asie. Et dans notre esprit, il arrivera très bientôt aux États-Unis. Je ne peux pas donner trop de détails à ce sujet, mais il arrivera bientôt.

Eh bien, ceux avec qui vous en parlez, de quoi parlent-ils en ce qui concerne la mise en œuvre potentielle ? La même chose que nous voyons en Corée ?

Oui, je dirais que le principal cas d'utilisation concerne ces courts segments tournés tout au long de la journée où le talent est occupé à travailler sur une histoire ou sur le terrain, mais ils ont besoin de quelques informations à communiquer au public. Ainsi, toutes les heures environ pendant lesquelles les producteurs du studio peuvent créer ces clips et présenter ces mises à jour, voici ce sur quoi nous travaillons pour l'émission de ce soir ou voici les dernières nouvelles dont nous parlerons plus en détail ce soir. C'est donc grâce à ces petites coupures et segments que nous voyons compléter le flux de contenu pour le visage de la franchise.

Donc, pour ce qui est de savoir où cela va se répéter l'année prochaine, nous avons examiné l'exemple que vous avez créé pour nous et il y a une sorte de réinitialisation étrange et non humaine que la femme fait entre ses phrases. Il y a, vous savez, une sorte de « non-naturalité » là-dedans. Comment lissez-vous les bords ?

Je suis très attentif à votre égard. C'est donc un modèle de démonstration que nous utilisons. Les modèles réels que nous créons pour les médias de diffusion sont lissés avec toutes ces petites choses que vous voyez. Et le modèle de démonstration est une sorte de processus de réglage que nous suivons pour le préparer pour les médias de diffusion. Il y a donc une petite différence de performance, mais lorsque nous passons à la couche de réglage supplémentaire, c'est là que nous arrivons côte à côte. Il est très difficile de déterminer quelle est l'IA et quelle est la vraie personne.

Eh bien, seule la mère peut le dire, ou peut-être même pas. Il s'agit certainement d'autre chose. Je suis très intéressé par les commentaires du public. Si vous avez des idées sur l'éthique, sur l'aspect technique de la mise en œuvre de technologies comme celle-ci, sur les implications que cela pourrait avoir pour les médias américains locaux et nationaux, j'adorerais les entendre. Alors, s'il vous plaît, faites-nous part de vos commentaires.

C'est tout le temps dont nous disposons, donc nous devons en rester là. Merci à Joe Murphy de Deep Brain AI pour sa présence aujourd'hui. Merci, Joe.

C'est bon. Merci, Michael.