Gli AI Anchors arriveranno presto? - DeepBrainAI

Updated on
July 5, 2024
|
Event & Webinar
Published
September 20, 2022

Controllo delle notizie TVMichael Depp parla con Joe Murphy di Deep Brain AI, una società tecnologica che sta creando copie digitali di conduttori di notizie televisive per punti vendita in Cina e Corea del Sud, su come funziona la tecnologia, le questioni etiche che la circondano e la probabilità che vedremo conduttori digitali sugli schermi statunitensi.

Immagina se una rete o una stazione TV potesse creare una copia digitale basata sull'intelligenza artificiale del suo ancoraggio principale, permettendo loro di fare un piccolo pizzico per alcune parti del lavoro.

Sta già accadendo in Corea del Sud e Cina, dove la società sudcoreana Deep Brain AI sta lavorando con quattro diverse reti su presentatori di copie digitali che leggono brevi notizie.

In questa conversazione su Talking TV, Joe Murphy, responsabile dello sviluppo aziendale di Deep Brain AI, parla dell'implementazione, di come funziona la tecnologia sottostante e di come i suoi clienti risolvono i potenziali problemi etici relativi all'uso delle copie digitali. Spiega anche se le emittenti statunitensi potrebbero entrare in gioco.

Michael Depp: Deep Brain AI è un'azienda che utilizza l'intelligenza artificiale per creare gemelli digitali di persone reali o persone digitali completamente nuove. Hanno collaborato con le emittenti della Corea del Sud e della Cina per creare versioni virtuali di anchor per gli aggiornamenti automatici delle notizie durante il giorno.

Sono Michael Depp, direttore di Controllo delle notizie TV, e questo è Talking TV, il podcast che ti offre conversazioni intelligenti sul business delle trasmissioni. A breve, una conversazione con Joe Murphy, responsabile dello sviluppo aziendale di Deep Brain AI. L'avvento di questa tecnologia e della sua applicazione per le notizie apre una serie di domande tecniche ed etiche, e ne porrò alcune tra un attimo.

Benvenuto, Joe Murphy, a Talking TV.

Joe Murphy: Salve Michael. Grazie per avermi invitato. Sono entusiasta di essere qui.

Sono lieto che tu sia qui. Joe, prima domanda ovvia: perché una testata giornalistica legittima dovrebbe mai farlo, creando una copia virtuale di una delle sue conduttrici per andare in onda?

Sì, mi sembra una risposta ovvia perché mentre parlo con le agenzie di stampa del Nord America, si trovano tutte di fronte alla stessa sfida. Ogni anno sono chiamati a fare di più con meno o senza aumentare il budget, ma abbiamo bisogno di più contenuti. E creare un gemello digitale o una persona virtuale del volto o del lead anchor del franchising sembra un'impresa ardua, perché ora puoi creare più contenuti, ridurre i costi e creare contenuti personalizzati più velocemente e poi distribuirli su diversi canali che forse prima non erano accessibili. Quindi, si tratta davvero di più, più velocemente e meglio.

Ho menzionato [questa tecnologia in] Corea del Sud e Cina. Dove vengono utilizzate specificamente queste cose finora?

La stessa Deep Brain ha sede a Seoul, in Corea, e in realtà faccio parte di un team di responsabili dello sviluppo aziendale che stanno portando questa tecnologia in Nord America. Abbiamo un vantaggio in Asia con questa tecnologia. Abbiamo quattro reti, due in Corea e due in Cina, che hanno collaborato con noi per creare un gemello digitale del loro lead anchor. In Corea, sono MBN e Arirang. E poi in Cina sono BTV e CCTV. Tutte e quattro queste stazioni di notizie trasmettono presentazioni utilizzando la tecnologia di Deep Brain AI.

E utilizzano ciascuno un singolo ancoraggio in ogni rete?

Sì, in questo momento, ognuno di loro ha scelto di prendere il proprio volto in franchising o il conduttore principale e ha creato un gemello digitale di quella persona. E in questo momento vediamo l'interesse di altri direttori all'interno delle loro organizzazioni. Si attiene più o meno al volto del franchising.

Si tratta di progetti pilota o da quanto tempo sono in corso?

Per la maggior parte dell'anno scorso, quindi nel 2021, ci sono stati conduttori su Korea TV e poi alla fine del 2021, hanno iniziato in Cina.

Ora, a quanto ho capito, non stai cercando di ingannare gli spettatori qui. Queste ancore virtuali vengono etichettate come tali?

Sì. Non stiamo cercando di ingannare le persone e non stiamo cercando di sostituirle. Queste sono le due domande che ricevo di più. Dirò che quando si usano gli ancoraggi AI, la stazione di notizie mette un simbolo con la scritta AI anchor, in modo che la gente sappia che assomiglia all'ancora principale. Sembra l'ancora principale. Ma quella che viene presentata in questo momento è in realtà la versione AI di quel conduttore che mi presenta la notizia.

E come viene presentato? È qualcosa nella parte inferiore dello schermo nel chyron?

Sì. In genere, si tratta di qualcosa nella parte inferiore dello schermo, nel chyron. Ho fornito alcuni filmati per voi, e vedrete le vere lettere inglesi AI seguite da alcuni simboli coreani che indicano che si tratta dell'ancora AI e che è piuttosto evidente sullo schermo durante la presentazione.

Avere quel tipo di etichettatura, è una necessità etica per la tua azienda?

È una raccomandazione della nostra azienda, ma alla fine è una decisione della rete e del modo in cui vogliono interagire con il proprio pubblico. Immagino che sia una negoziazione tra la rete e il talento, ma è davvero al di fuori del nostro ambito. Questo succede a porte chiuse. Siamo molto felici di vedere il modo etico e responsabile in cui vengono utilizzati. Ma ripeto, non spetta proprio a noi dire alla gente come farlo.

Beh, si tratta già di due mercati molto diversi. La Corea del Sud è una società democratica. In Cina, si tratta di media controllati dallo stato. È una cosa che sai, è controllata dal partito. Quindi, c'erano diversi tipi di conversazioni? Dici che quelle conversazioni erano interamente interne a quelle organizzazioni o sono semplicemente avanti e indietro con te?

Le conversazioni tra la rete e il talento erano praticamente a porte chiuse. Non siamo a conoscenza di queste informazioni. Posso dire, dal punto di vista dell'implementazione, che l'infrastruttura cloud utilizzata e, a conti fatti, è cloud, altra è on-premise. E per non entrare troppo nei dettagli tecnici...

Va bene, puoi diventare tecnico.

Quindi, direi che nel mercato cinese, volevano fare molto di più in sede. Puoi immaginare che tutto sia controllato in una posizione centrale, dove nelle implementazioni coreane veniva fatto più nel cloud.

Tornando all'etica dello schieramento... c'è un regolamento etico qui in vigore o, in caso affermativo, chi lo sta scrivendo? Sei un'azienda? Stai discutendo con altre filiali [dei media]? Stai pensando di trasferirlo negli Stati Uniti. Chi sta definendo le linee guida etiche?

Direi che è un settore in rapida crescita con umani virtuali e media in rotta di collisione e stiamo imparando man mano che procediamo. Ci sono considerazioni etiche, ci sono considerazioni di sicurezza. Ma in realtà, alla fine, lo consideriamo un altro strumento per la creazione di contenuti. È un nuovo strumento e ci sono nuove domande al riguardo, ma in realtà è solo uno strumento per creare nuovi contenuti video. Proprio come un editor video è uno strumento che potresti usare negli editor audio, lo è o potresti usare l'intelligenza artificiale è un altro strumento. E penso che tu veda l'intelligenza artificiale applicata in più punti durante il processo di produzione video.

Assolutamente sì. Voglio dire, l'intelligenza artificiale e l'apprendimento automatico sono ormai parti importanti dei flussi di lavoro. Ma questa è una categoria completamente diversa. Questo vive a modo suo. Parli di replicare una persona e di presentarla o fabbricarla. È una struttura completamente diversa rispetto alle altre applicazioni, che sono, credo, molto più banali e poco controverse, a parte le preoccupazioni che le persone nutrono circa la potenziale eliminazione del lavoro.

Voglio sottolineare il fatto che questa situazione entra in un pericoloso territorio di incrocio con i video deepfake, che abbiamo visto tutti e che sono ampiamente utilizzati nelle campagne di disinformazione su Internet e sui social media. Quindi, se questo tipo di tecnologia si diffonde nel suo uso legittimo tra le testate giornalistiche, che tipo di apertura creerebbe all'ulteriore proliferazione dei deepfake?

Questa è un'ottima domanda. Penso di voler fare un passo indietro e dire che ciò che stiamo facendo è molto diverso dalla tecnologia deepfake. Il lavoro che stiamo facendo è una sintesi video completa. Quindi, prendiamo una persona reale, facciamo una ripresa video e quella ripresa video è il nostro dato di addestramento per creare un modello di intelligenza artificiale di quella persona. Hanno optato per l'intero percorso. Quindi, quando quel modello viene creato, è legato alla sicurezza all'interno del cloud. E in genere, i diritti relativi ai ritratti o ai volti vengono estesi a quel modello.

Quindi, la stazione è legalmente autorizzata a utilizzare quel modello per gli scopi previsti che sono tutti appaltati. Quindi, pura sintesi video, controlli legali in ogni fase del processo. Assicurarci che tutti siano iscritti e coinvolti è ciò su cui stiamo lavorando in Deep Brain.

Un deepfake inizia con un video reale, quindi devi riprendere una persona dal vivo e poi devi incollare il volto di un'altra persona dal vivo sopra il video che hai girato. Quindi, già al primo passo, siamo diversi. Nella tecnologia di sintesi video, non sono necessarie riprese. Un giorno facciamo delle riprese per una sessione di formazione video, ma dopo, tutto il video generato è completamente generato dall'intelligenza artificiale. Non c'è bisogno di scattare.

Quel video generato è filigranato in qualche modo che tu possa autenticarlo?

Sì, possiamo mostrare tramite metadati che proviene dalla nostra soluzione. E ci sono anche controlli ed equilibri che possiamo inserire, anche semplici filtri di testo che, se una rete vuole che vengano inseriti, può limitare ciò che quel modello di intelligenza artificiale può dire e non può dire.

Analizziamo un po' di più le erbacce su come tutto questo si risolve, tecnicamente. Quindi, hai detto che hai la persona, il talento, che si siede in studio e li fai registrare. Leggono un numero qualsiasi di frasi mentre vengono fotografati e registrati audio?

In genere, prepariamo uno script che conterrà tra 500 e 1.000 frasi o enunciati. Quello che stiamo davvero cercando di fare con queste frasi ed espressioni è imparare come muovono la bocca con tutti i diversi suoni e tutte le diverse parole e le transizioni da una parola all'altra, con le pause intermedie. Quindi, utilizzando lo script che prepariamo, questi sono i dati di formazione per i nostri modelli di deep learning.

E come si fa a farlo? Come sono posizionate le telecamere sul viso della persona?

In genere, il talento è davanti a uno schermo verde. Spariamo a circa uno o due metri di distanza, a un metro e mezzo di distanza, con un colpo frontale. E cerchiamo di ottenere una copertura totale dalla testa ai piedi, dall'alto verso il basso. E abbiamo anche la possibilità di scattare da angolazioni. Abbiamo clienti che vogliono cambiare angolazione durante la presentazione dei contenuti multimediali, quindi possiamo farlo anche noi. Ma nella fase più semplicistica, si tratta di una ripresa frontale diretta, ripresa di tutto il corpo davanti a uno schermo verde.

Quindi, indossano un paio di vestiti, presumibilmente durante le riprese? Puoi cambiargli i vestiti come bambole di carta in diverse iterazioni quando vanno in onda?

Sì. Quindi, di solito quando facciamo le riprese per la giornata di allenamento, utilizziamo diversi abiti e più acconciature. Nella nostra tabella di marcia c'è la possibilità di cambiare acconciatura e abbigliamento senza dover effettivamente rifare le riprese.

Mentre lo implementate, questo gemello utilizza l'apprendimento automatico per migliorare la sua verosimiglianza? O quello che ottieni da quella sessione è quello che hai in futuro?

È la seconda. La cosa che creiamo, il modello che creiamo fuori dalla sessione è quindi solo un motore. Non si tratta di apprendimento continuo. È un motore che inserisce testo ed esporta video. E quel video che sta esportando, è lì che è stato applicato il deep learning. Come parla questa persona? Come muovono la bocca? Come fanno a battere le palpebre? Quando respirano? Tutto questo è un comportamento appreso che entra nel modello. Possiamo imparare da questo.

Da quella sessione di registrazione a quando può emettere un gemello digitale, quanto dura il processo?

Questa è un'ottima domanda. In realtà sono circa tre settimane di tempo in macchina.

L'altro aspetto è che la tua azienda crea anche queste persone digitali, e tu ne hai effettivamente creato uno per noi di Controllo delle notizie TV. Perché non diamo un'occhiata veloce adesso?

Ottimo.

Questa è un'altra cosa. Cosa serve a rendere questa persona completamente costruita?

Iniziamo con più o meno gli stessi processi del deep learning. È solo che nel video in cui stiamo entrando utilizziamo un algoritmo di intelligenza artificiale diverso per costruire il volto di quella persona. Quindi, inizieremo con l'inquadratura di una persona reale. Ma poi prendi una faccia completamente sintetica e unisci le due cose durante il processo di deep learning.

C'era una donna in piedi in studio? Le stavi sparando e le stai sovrapponendo una faccia diversa sul corpo?

In realtà non è solo una persona. È una stima di molte persone diverse.

Quanti tipi diversi di avatar, se possiamo chiamarli così, possiedi? È un numero infinito di diversi tipi di persone, diversi generi, età, razze, ecc.?

Sì. Questo è un po' fuori tema, ma abbiamo appena fatto un lancio NFT di 5.000 umani virtuali in Cina ed è stato un lancio di grande successo per noi. E ora ne abbiamo altri 5.000 pronti all'uso, ed è davvero quasi infinito il numero di varianti e di esseri umani virtuali che possiamo creare.

Resisti. Cosa ottieni quando acquisti un NFT di una persona virtuale? Qual è il prodotto?

Era legato a quello che era l'equivalente di San Valentino in Cina. E si ottiene il ritratto della persona, e lo chiamavano fidanzato virtuale o fidanzata virtuale. Ora ognuno di questi modelli può essere collegato alla nostra piattaforma software, chiamata AI Studios. E se scegli di collegarlo ad AI Studios, puoi registrarti e creare video con quella persona virtuale che hai appena acquistato tramite questo drop NFT.

Non lo so nemmeno... sto elaborando. È come Blade Runner in una certa misura.

Sì, questo è stato più che altro un esperimento divertente e il mercato degli NFT è molto eccitante per noi, ma probabilmente è un po' al di fuori dell'ambito di ciò che stiamo facendo con le notizie e i media.

Quindi torniamo a quello. Avete delle emittenti statunitensi che stanno dando il via alle gomme?

Sì. Quindi, tutti i grandi nomi degli Stati Uniti stanno dando il via alle gomme in questo momento. Penso che gli Stati Uniti in generale siano un po' più cauti e stiano vedendo come sta andando la situazione. Ma sta davvero ottenendo un'adozione rapida e veloce in tutta l'Asia. E pensiamo che arriverà molto presto negli Stati Uniti. Non posso condividere troppi dettagli al riguardo, ma arriverà presto.

Bene, quelli con cui ne parli, di cosa stanno parlando per la potenziale implementazione? La stessa cosa che vediamo in Corea?

Sì, direi che il caso d'uso principale sono questi brevi segmenti girati durante il giorno in cui il talento è impegnato a lavorare su una storia o sul campo, ma ha bisogno di fornire alcuni aggiornamenti al pubblico. Quindi, ogni ora circa, affinché i produttori in studio possano creare queste clip e presentare questi aggiornamenti, ecco a cosa stiamo lavorando per lo show di stasera o ecco le ultime ultime notizie di cui parleremo più stasera. Quindi stiamo assistendo a quei piccoli ritagli e segmenti che stiamo integrando il feed dei contenuti del franchise.

Quindi, in termini di dove si ripeterà l'anno prossimo, abbiamo esaminato questo esempio che hai creato per noi e c'è una specie di bizzarro tipo di ripristino non umano che la donna fa tra le sue frasi. Sai, c'è una sorta di «innaturalità» in questo. Come stai smussando i bordi?

Molto attento da parte tua. Quindi questo è un modello dimostrativo che usiamo. I modelli reali che creiamo per i media radiotelevisivi vengono ottimizzati con tutte quelle piccole cose che si vedono. E il modello demo è una specie di processo di ottimizzazione che seguiamo per renderlo pronto per le trasmissioni multimediali. Quindi, c'è una leggera differenza nelle prestazioni, ma quando passiamo al livello aggiuntivo di ottimizzazione, è lì che arriviamo fianco a fianco. È molto difficile determinare quale sia l'IA e quale sia la persona reale.

Beh, solo una madre può dirlo, o forse nemmeno quello. Questa è sicuramente un'altra cosa. Sono molto interessato al feedback del pubblico. Se avete un'opinione sull'etica, sul lato tecnico dell'implementazione di tecnologie come questa, sulle possibili implicazioni per i media statunitensi locali e nazionali, mi piacerebbe sentirla. Quindi, per favore, dateci un feedback.

È tutto il tempo che abbiamo, quindi dobbiamo lasciarlo lì. Grazie a Joe Murphy di Deep Brain AI per essere qui oggi. Grazie, Joe.

Va bene Grazie Michael.

Most Read

Most Read

Restiamo connessi

Il nostro team è pronto a supportarti nel tuo viaggio umano virtuale. Fai clic qui sotto per contattarci e qualcuno ti contatterà a breve.