Kommen KI-Moderatoren bald? - DeepBrainAI

Updated on
July 4, 2024
|
Event & Webinar
Published
September 20, 2022

TV-NachrichtenscheckMichael Depp spricht mit Joe Murphy von Deep Brain AI, einem Technologieunternehmen, das digitale Kopien von TV-Nachrichtensendern für Sender in China und Südkorea erstellt, über die Funktionsweise der Technologie, die damit verbundenen ethischen Fragen und die Wahrscheinlichkeit, dass wir digitale Moderatoren auf US-Bildschirmen sehen werden.

Stellen Sie sich vor, ein Sender oder ein Fernsehsender könnte eine KI-gestützte digitale Kopie seines Hauptankers erstellen, sodass sie Teile des Jobs ein wenig einklemmen könnten.

Das passiert bereits in Südkorea und China, wo das südkoreanische Unternehmen Deep Brain AI mit vier verschiedenen Netzwerken an digitalen Copy-Moderatoren arbeitet, die Nachrichtenbriefe lesen.

In diesem Talking TV-Gespräch spricht Joe Murphy, Business Development Manager bei Deep Brain AI, über die dortige Implementierung, wie die zugrunde liegende Technologie funktioniert und wie die Kunden potenzielle ethische Bedenken im Zusammenhang mit der Verwendung digitaler Kopien angehen. Er erörtert auch, ob US-Fernsehsender in das Spiel einsteigen könnten.

Michael Depp: Deep Brain AI ist ein Unternehmen, das künstliche Intelligenz nutzt, um digitale Zwillinge von echten oder völlig neuen digitalen Menschen zu erstellen. Sie haben mit Sendern in Südkorea und China zusammengearbeitet, um virtuelle Versionen der dortigen Moderatoren zu erstellen, die den ganzen Tag über automatische Nachrichtenaktualisierungen dienen.

Ich bin Michael Depp, Herausgeber von TV-Nachrichtenscheck, und das ist Talking TV, der Podcast, der Ihnen kluge Gespräche über das Rundfunkgeschäft bietet. Demnächst ein Gespräch mit Joe Murphy, Business Development Manager von Deep Brain AI. Das Aufkommen dieser Technologie und ihrer Anwendung für Nachrichten wirft eine Reihe technischer und ethischer Fragen auf, und ich werde gleich einige davon stellen.

Willkommen, Joe Murphy, bei Talking TV.

Joe Murphy: Hallo, Michael. Danke, dass du mich eingeladen hast. Ich freue mich, hier zu sein.

Freut mich, dass du hier bist. Joe, erste, naheliegende Frage: Warum sollte eine legitime Nachrichtenorganisation das jemals tun und eine virtuelle Kopie eines ihrer Moderatoren erstellen, um auf Sendung zu gehen?

Ja, für mich scheint das eine naheliegende Antwort zu sein, denn während ich mit Nachrichtenagenturen in Nordamerika gesprochen habe, stehen sie alle vor der gleichen Herausforderung. Jedes Jahr stehen sie vor der Herausforderung, mit weniger oder gar keinen Budgeterhöhungen mehr zu erreichen, aber wir brauchen mehr Inhalte. Und einen digitalen Zwilling oder einen virtuellen Menschen ihres Franchise-Gesichts oder Hauptankers zu erstellen, scheint ein Knaller zu sein, denn Sie können jetzt mehr Inhalte erstellen, die Kosten senken und benutzerdefinierte Inhalte schneller erstellen und sie dann in verschiedenen Kanälen veröffentlichen, auf die zuvor vielleicht nicht zugegriffen werden konnte. Es geht also wirklich um mehr, schneller, besser.

Ich habe [diese Technologie] in Südkorea und China erwähnt. Wo genau werden diese Dinge bisher eingesetzt?

Deep Brain selbst hat seinen Hauptsitz in Seoul, Korea, und ich bin tatsächlich Teil eines Teams von Geschäftsentwicklungsmanagern, die diese Technologie nach Nordamerika bringen. Mit dieser Technologie haben wir in Asien einen Vorsprung. Wir haben vier Netzwerke, zwei in Korea und zwei in China, die mit uns zusammengearbeitet haben, um einen digitalen Zwilling ihres Hauptankers zu erstellen. In Korea sind es MBN und Arirang. Und dann sind es in China BTV und CCTV. Alle vier dieser Nachrichtensender senden Moderatoren, die die Technologie von Deep Brain AI verwenden.

Und sie verwenden jeweils einen einzigen Anker in jedem Netzwerk?

Ja, zu diesem Zeitpunkt haben sie sich jeweils dafür entschieden, ihr Franchise-Gesicht oder ihren Hauptdarsteller zu nehmen und einen digitalen Zwilling dieser Person zu erstellen. Und wir sehen derzeit Interesse von anderen Moderatoren in ihren Organisationen. Es bleibt so ziemlich beim Franchise-Gesicht.

Handelt es sich um Pilotprojekte oder wie lange laufen sie schon?

Den größten Teil des letzten Jahres, also 2021, gab es Moderatoren im koreanischen Fernsehen, und Ende 2021 begannen sie in China.

Nun, so wie ich es verstehe, versuchst du hier nicht, die Zuschauer zu täuschen. Diese virtuellen Anker werden als solche gekennzeichnet?

Ja. Wir versuchen nicht, Menschen zu täuschen und wir versuchen nicht, Menschen zu ersetzen. Das sind die beiden Fragen, die mir am häufigsten gestellt werden. Ich sage, wenn die KI-Anker verwendet werden, zeigt der Nachrichtensender ein Symbol mit der Aufschrift KI-Anker an, damit die Leute wissen, dass es wie der Hauptanker aussieht. Es klingt wie der Bleianker. Aber was gerade präsentiert wird, ist eigentlich die KI-Version dieses Moderators, der mir die Neuigkeiten präsentiert.

Und wie wird das präsentiert? Ist es etwas am unteren Bildschirmrand im Chyron?

Ja. Normalerweise ist es etwas am unteren Bildschirmrand im Chyron. Ich habe einige Aufnahmen für euch bereitgestellt, und ihr werdet die tatsächlichen englischen Buchstaben AI sehen, gefolgt von einigen koreanischen Symbolen, die darauf hinweisen, dass dies der KI-Anker ist und der während der Präsentation auf dem Bildschirm irgendwie deutlich sichtbar ist.

Ist es für Ihr Unternehmen eine ethische Notwendigkeit, eine solche Kennzeichnung zu haben?

Es ist eine Empfehlung unseres Unternehmens, aber am Ende des Tages ist es eine Entscheidung des Netzwerks und wie es mit seinem Publikum interagieren möchte. Ich kann mir vorstellen, dass es eine Verhandlung zwischen dem Netzwerk und den Talenten ist, aber das liegt wirklich außerhalb unseres Zuständigkeitsbereichs. Das passiert irgendwie hinter verschlossenen Türen. Wir freuen uns sehr, dass diese ethisch und verantwortungsbewusst eingesetzt werden. Aber auch hier ist es nicht wirklich unsere Aufgabe, den Leuten zu sagen, wie es geht.

Nun, das sind bereits zwei sehr unterschiedliche Märkte. Südkorea ist eine demokratische Gesellschaft. In China sind es staatlich kontrollierte Medien. Es ist sehr viel, weißt du, es wird von der Partei kontrolliert. Also, gab es verschiedene Arten von Gesprächen? Sie sagen, diese Gespräche fanden ausschließlich intern für diese Organisationen statt, oder gehen sie überhaupt mit Ihnen hin und her?

In den Gesprächen zwischen dem Netzwerk und den Talenten waren wir quasi hinter verschlossenen Türen. Wir sind nicht in diese Informationen eingeweiht. Aus Sicht der Implementierung kann ich sagen, dass die Cloud-Infrastruktur, die verwendet wurde, und bei einigen handelt es sich um eine Cloud-Infrastruktur, bei anderen handelt es sich um eine On-Premise-Infrastruktur. Und um hier nicht zu technisch zu werden...

Es ist okay, du kannst technisch werden.

Ich würde also sagen, auf dem chinesischen Markt wollten sie, dass viel mehr vor Ort erledigt wird. Sie können sich vorstellen, dass alles an einem zentralen Ort gesteuert wird, während es bei den koreanischen Implementierungen eher in der Cloud geschah.

Nur um auf die Ethik des Einsatzes zurückzukommen... gibt es hier ein ethisches Regelwerk oder wenn ja, wessen hat es geschrieben? Sind Sie ein Unternehmen? Führen Sie Gespräche mit anderen [Medien-] Branchen? Sie denken darüber nach, das in die Staaten zu verlagern. Wer legt die ethischen Richtlinien fest?

Ich würde sagen, es ist eine schnell wachsende Branche, in der virtuelle Menschen und Medien auf Kollisionskurs sind, und wir lernen quasi im Laufe der Zeit. Es gibt ethische Überlegungen, es gibt Sicherheitsüberlegungen. Aber am Ende des Tages betrachten wir dies als ein weiteres Tool zur Erstellung von Inhalten. Es ist ein neues Tool und es gibt neue Fragen dazu, aber es ist wirklich nur ein Tool zum Erstellen neuer Videoinhalte. So wie ein Videoeditor ein Tool ist, das Sie in Audio-Editoren verwenden könnten, ist es ein anderes Tool, oder Sie könnten KI verwenden. Und ich denke, Sie sehen, dass KI während des gesamten Videoproduktionsprozesses an mehreren Stellen eingesetzt wird.

Das ist es auf jeden Fall. Ich meine, KI und maschinelles Lernen sind heute große Bestandteile von Arbeitsabläufen. Aber das ist eine ganz andere Kategorie. Das lebt auf seine Weise. Du sprichst davon, eine Person nachzuahmen und die Person zu präsentieren oder zu erfinden. Es ist ein ganz anderes Konstrukt als die anderen Anwendungen, die, glaube ich, viel routinierter sind und nicht wirklich umstritten sind, abgesehen von den Bedenken, die die Leute möglicherweise über den Wegfall von Arbeitsplätzen haben.

Ich möchte auf die Tatsache eingehen, dass dies mit Deepfake-Videos, die wir alle gesehen haben und die häufig in Desinformationskampagnen im Internet und in den sozialen Medien eingesetzt werden, in ein gefährliches Crossover-Gebiet gerät. Also, wenn diese Art von Technologie in Nachrichtenorganisationen immer mehr legitim eingesetzt wird, welche Möglichkeiten eröffnet das Ihrer Meinung nach für die weitere Verbreitung von Deepfakes?

Das ist eine gute Frage. Ich denke, ich möchte einen Schritt zurücktreten und sagen, dass das, was wir tun, ganz anders ist als die Deepfake-Technologie. Die Arbeit, die wir machen, ist eine komplette Videosynthese. Also nehmen wir eine reale Person, wir machen einen Videodreh und dieser Videodreh sind unsere Trainingsdaten, um ein KI-Modell dieser Person zu erstellen. Sie haben sich komplett entschieden. Wenn dieses Modell dann erstellt wird, ist es an die Sicherheit in der Cloud gebunden. Und in der Regel werden die Portrait- oder Gesichtsrechte auf dieses Modell ausgedehnt.

Die Station ist also rechtlich in Ordnung, dieses Modell für die vorgesehenen Zwecke zu verwenden, die alle vertraglich vereinbart wurden. Also reine Videosynthese, rechtliche Kontrollen bei jedem Schritt. Wir bei Deep Brain arbeiten daran, sicherzustellen, dass alle angemeldet sind und an Bord sind.

Ein Deepfake beginnt mit einem echten Video, also musst du eine lebende Person fotografieren und dann musst du das Gesicht einer anderen lebenden Person über das Video, das du aufgenommen hast, einfügen. Also, schon im ersten Schritt sind wir anders. Bei der Videosynthesetechnologie ist keine Aufnahme erforderlich. Wir drehen an einem Tag für ein Videotraining, aber danach ist das gesamte generierte Video vollständig KI-generiert. Es ist nicht nötig zu schießen.

Ist das generierte Video so mit einem Wasserzeichen versehen, dass Sie es authentifizieren können?

Ja, wir können anhand von Metadaten zeigen, dass es von unserer Lösung stammt. Und es gibt auch Kontrollen und Abwägungen, die wir so einfach wie Textfilter einsetzen können. Wenn ein Netzwerk dies wünscht, kann es einschränken, was das KI-Modell sagen kann und was nicht.

Lassen Sie uns etwas genauer untersuchen, wie das technisch zusammenkommt. Also, du hast erwähnt, dass du die Person hast, das Talent, kommt in ein Studio und du lässt sie aufnehmen. Sie lesen eine beliebige Anzahl von Sätzen vor, während sie fotografiert und aufgenommen werden?

Normalerweise bereiten wir ein Drehbuch vor, das zwischen 500 und 1.000 Sätze oder Äußerungen enthält. Was wir mit diesen Sätzen und Äußerungen wirklich versuchen, ist zu lernen, wie sie ihren Mund bewegen, mit all den verschiedenen Lauten und den verschiedenen Wörtern und den Übergängen von einem Wort zum nächsten, den Pausen dazwischen. Mit dem Skript, das wir vorbereiten, sind das die Trainingsdaten für unsere Deep-Learning-Modelle.

Und wie macht man das? Wie sind die Kameras auf dem Gesicht der Person angebracht?

Normalerweise befindet sich das Talent vor einem Greenscreen. Wir schießen in etwa ein oder zwei Metern Entfernung, eineinhalb Meter entfernt, Frontalschuss. Und wir versuchen, von Kopf bis Fuß zu gehen, sozusagen von oben nach unten, eine vollständige Abdeckung. Und wir haben auch die Möglichkeit, aus Winkeln zu fotografieren. Wir haben Kunden, die während der Präsentation der Medien den Blickwinkel wechseln möchten, also können wir das auch tun. Aber in der einfachsten Phase ist es eine direkte Frontalaufnahme, eine Ganzkörperaufnahme vor einem Greenscreen.

Also, sie tragen ein paar Klamotten, vermutlich während dieses Shootings? Kannst du ihre Kleidung wie Papierpuppen in verschiedenen Iterationen wechseln, wenn sie auf Sendung gehen?

Ja. Also, wenn wir das Shooting für den Trainingstag machen, gehen wir normalerweise mehrere Outfits und mehrere Frisuren durch. Auf unserer Roadmap steht die Möglichkeit, Frisur und Outfit zu ändern, ohne das Shooting erneut durchführen zu müssen.

Nutzt dieser Zwilling bei der Bereitstellung maschinelles Lernen, um seine Echtheit irgendwie zu verbessern? Oder ist das, was Sie aus dieser Sitzung mitnehmen, das, was Sie in Zukunft haben werden?

Es ist letzteres. Das Ding, das wir erstellen, das Modell, das wir aus der Sitzung heraus erstellen, ist dann nur eine Engine. Es ist kein kontinuierliches Lernen. Es ist eine Engine, die Text einnimmt und Videos exportiert. Und das Video, das es exportiert, da wurde Deep Learning angewendet. Wie spricht diese Person? Wie bewegen sie ihren Mund? Wie blinzeln sie? Wann atmen sie? All dies ist erlerntes Verhalten, das in das Modell einfließen kann. Daraus können wir lernen.

Von dieser Aufnahmesitzung bis zu dem Zeitpunkt, an dem es einen digitalen Zwilling ausspucken kann, wie lange dauert dieser Prozess?

Das ist eine gute Frage. Es sind tatsächlich ungefähr drei Wochen Maschinenzeit.

Die andere Seite davon ist, dass Ihr Unternehmen auch diese digitalen Menschen aus einem Guss kreiert, und Sie haben tatsächlich einen von ihnen für uns gemacht TV-Nachrichtenscheck. Warum schauen wir uns das nicht gleich kurz an?

Großartig.

Das ist etwas anderes. Was macht diese vollständig konstruierte Person aus?

Wir beginnen mit so ziemlich vielen der gleichen Prozesse des Deep Learning. Es ist nur so, dass wir in dem Video, das reingeht, einen anderen KI-Algorithmus verwenden, um ein Gesicht für diese Person zu konstruieren. Wir beginnen also mit einem Bild einer realen Person. Aber dann nehmen wir ein Gesicht, das vollständig synthetisch ist, und verbinden diese beiden während des Deep-Learning-Prozesses miteinander.

Du hattest eine Frau, die im Studio aufstand? Du hast sie erschossen und überlagerst ihrem Körper ein anderes Gesicht?

Es ist nicht wirklich nur eine Person. Es ist eine Schätzung vieler verschiedener Leute.

Wie viele verschiedene Arten von Avataren, wenn wir sie so nennen können, hast du? Ist es unendlich viele verschiedene Arten von Menschen, verschiedene Geschlechter, Altersgruppen, Rassen usw.?

Ja. Das ist ein bisschen vom Thema abgekommen, aber wir haben gerade einen NFT-Drop von 5.000 virtuellen Menschen in China durchgeführt, und es war ein sehr erfolgreicher Start für uns. Und jetzt haben wir weitere 5.000 einsatzbereit, und die Anzahl der Variationen und virtuellen Menschen, die wir erstellen können, ist wirklich fast unendlich.

Halte durch. Was bekommst du, wenn du ein NFT einer virtuellen Person kaufst? Was ist das Produkt?

Es war an das gebunden, was dem Valentinstag in China entsprach. Und du bekommst das Porträt der Person, und sie nannten es ihren virtuellen Freund oder ihre virtuelle Freundin. Jetzt kann jedes dieser Modelle mit unserer Softwareplattform verknüpft werden, die AI Studios heißt. Und wenn Sie es mit AI Studios verknüpfen möchten, können Sie sich anmelden und Videos mit der virtuellen Person erstellen, die Sie gerade über diesen NFT-Drop gekauft haben.

Ich... ich verarbeite das nicht mal. Es ist wie Blade Runner bis zu einem gewissen Grad.

Ja, das war eher ein lustiges Experiment und der NFT-Markt ist für uns sehr aufregend, aber er liegt wahrscheinlich etwas außerhalb des Rahmens dessen, was wir mit Nachrichten und Medien machen.

Also zurück dazu. Haben Sie irgendwelche US-Sender, die hier gegen die Reifen treten?

Ja. Also, alle großen Namen in den USA treten gerade in die Hose. Ich denke, die USA sind im Allgemeinen etwas vorsichtiger und sie sehen irgendwie, wie sich das entwickelt. Aber es wird wirklich schnell und schnell in ganz Asien angenommen. Und unserer Meinung nach kommt es sehr bald in die USA. Ich kann nicht allzu viele Details dazu sagen, aber es wird bald hier sein.

Nun, diejenigen, mit denen Sie darüber sprechen, worüber sprechen sie für die mögliche Umsetzung? Das Gleiche, was wir in Korea sehen?

Ja, ich würde sagen, der Hauptanwendungsfall sind diese kurzen kleinen Abschnitte, die im Laufe des Tages gedreht werden und in denen das Talent damit beschäftigt ist, an einer Geschichte zu arbeiten oder draußen vor Ort, aber es muss dem Publikum einige Neuigkeiten geben. Also, etwa jede Stunde, damit die Produzenten im Studio diese Clips erstellen und diese Updates präsentieren können, hier ist, woran wir für die heutige Sendung arbeiten, oder hier sind die neuesten Nachrichten, über die wir heute Abend mehr sprechen werden. Wir sehen also, dass diese kleinen Überschnitte und Segmente den Content-Feed für das Franchise-Gesicht ergänzen.

In Bezug darauf, wo sich das nächstes Jahr wiederholen wird, haben wir uns dieses Beispiel angesehen, das Sie für uns erstellt haben, und es gibt eine Art bizarren, nichtmenschlichen Reset, den die Frau zwischen ihren Sätzen durchführt. Das ist, weißt du, ein bisschen „Unnatürlichkeit“. Wie glättet ihr da die Kanten?

Sehr aufmerksam auf dich. Das ist also ein Demo-Modell, das wir verwenden. Die tatsächlichen Modelle, die wir für Rundfunkmedien erstellen, werden durch all die kleinen Dinge, die Sie sehen, geglättet. Und das Demomodell ist eine Art Tuning-Prozess, den wir durchlaufen, um es für Rundfunkmedien vorzubereiten. Es gibt also einen kleinen Leistungsunterschied, aber wenn wir die zusätzliche Tuning-Ebene durchlaufen, kommen wir Seite an Seite. Es ist sehr schwierig zu bestimmen, welche die KI und welche die reale Person ist.

Nun, das kann nur die eigene Mutter sagen, oder vielleicht nicht einmal das. Das ist sicherlich etwas anderes. Ich bin sehr an Rückmeldungen aus dem Publikum interessiert. Wenn Sie Gedanken zur Ethik haben, zur technischen Seite der Implementierung solcher Technologien, zu den möglichen Auswirkungen auf lokale und nationale US-Medien, würde ich mich freuen, das zu hören. Also, bitte geben Sie uns Feedback.

Das ist die ganze Zeit, die wir haben, also müssen wir sie dabei belassen. Vielen Dank an Joe Murphy von Deep Brain AI, dass er heute hier ist. Danke, Joe.

In Ordnung. Danke, Michael.

Most Read

Most Read

Bleiben wir in Verbindung

Unser Team ist bereit, Sie auf Ihrer virtuellen menschlichen Reise zu unterstützen. Klicken Sie unten, um Kontakt aufzunehmen. In Kürze wird sich jemand mit Ihnen in Verbindung setzen.