As âncoras de IA estão chegando em breve? - IA cerebral profunda

Updated on
July 5, 2024
|
Event & Webinar
Published
September 20, 2022

Verificação de notícias de TVMichael Depp conversa com Joe Murphy, da Deep Brain AI, uma empresa de tecnologia que está criando cópias digitais de âncoras de notícias de TV para veículos na China e na Coreia do Sul, sobre como a tecnologia funciona, as questões éticas que a envolvem e a probabilidade de vermos âncoras digitais nas telas dos EUA.

Imagine se uma rede ou emissora de TV pudesse criar uma cópia digital baseada em IA de sua âncora principal, permitindo que ela fizesse algumas pequenas melhoras em partes do trabalho.

Isso já está acontecendo na Coreia do Sul e na China, onde a empresa sul-coreana Deep Brain AI está trabalhando com quatro redes diferentes em âncoras de cópia digital lendo resumos de notícias.

Nesta conversa da Talking TV, Joe Murphy, gerente de desenvolvimento de negócios da Deep Brain AI, fala sobre a implementação lá, como a tecnologia subjacente funciona e como seus clientes abordam possíveis questões éticas relacionadas ao uso de cópias digitais. Ele também discute se as emissoras dos EUA poderiam entrar no jogo.

Michael Depp: A Deep Brain AI é uma empresa que usa inteligência artificial para criar gêmeos digitais de pessoas reais ou pessoas digitais completamente novas. Eles têm trabalhado com emissoras na Coreia do Sul e na China para criar versões virtuais de âncoras para atualizações automatizadas de notícias ao longo do dia.

Sou Michael Depp, editor da Verificação de notícias de TV, e este é o Talking TV, o podcast que traz conversas inteligentes sobre o negócio de radiodifusão. A seguir, uma conversa com Joe Murphy, gerente de desenvolvimento de negócios da Deep Brain AI. O advento dessa tecnologia e sua aplicação em notícias abrem uma série de questões técnicas e éticas, e eu vou perguntar algumas delas em breve.

Bem-vindo, Joe Murphy, à Talking TV.

Joe Murphy diz: Oi, Michael. Obrigado por me receber. Estou animado por estar aqui.

Fico feliz por você estar aqui. Joe, primeira pergunta óbvia: Por que qualquer organização de notícias legítima faria isso, criando uma cópia virtual de um de seus âncoras para ir ao ar?

Sim, para mim, essa parece uma resposta óbvia porque, ao conversar com agências de notícias na América do Norte, todas elas enfrentam o mesmo desafio. Todos os anos, eles são desafiados a fazer mais com menos ou não obter aumentos no orçamento, mas precisamos de mais conteúdo. E criar um gêmeo digital ou um humano virtual com seu rosto de franquia ou âncora principal parece um sucesso, porque agora você pode criar mais conteúdo, reduzir custos e criar conteúdo personalizado com mais rapidez e depois divulgá-lo em diferentes canais que talvez não estivessem acessíveis antes. Então, na verdade, tudo gira em torno de mais, mais rápido e melhor.

Eu mencionei [essa tecnologia na] Coreia do Sul e na China. Onde especificamente essas coisas estão sendo usadas até agora?

A própria Deep Brain está sediada em Seul, Coréia, e eu, na verdade, faço parte de uma equipe de gerentes de desenvolvimento de negócios que estão trazendo essa tecnologia para a América do Norte. Temos uma vantagem inicial na Ásia com essa tecnologia. Temos quatro redes, duas na Coréia e duas na China, que trabalharam conosco para criar um gêmeo digital de sua âncora principal. Na Coréia, são MBN e Arirang. E então, na China, é BTV e CCTV. Todas essas quatro emissoras de notícias estão transmitindo âncoras usando a tecnologia da Deep Brain AI.

E cada um deles está usando uma única âncora em cada rede?

Sim, neste momento, cada um deles escolheu pegar seu rosto de franquia ou seu âncora principal e criar um gêmeo digital dessa pessoa. E vemos o interesse de outros âncoras de suas organizações no momento. Está basicamente na cara da franquia.

Esses são projetos-piloto ou há quanto tempo estão em andamento?

Durante a maior parte do ano passado, até 2021, houve âncoras na TV coreana e, no final de 2021, elas começaram na China.

Agora, pelo que entendi, você não está tentando enganar os espectadores aqui. Essas âncoras virtuais estão sendo rotuladas como tal?

Sim Não estamos tentando enganar as pessoas e não estamos tentando substituir as pessoas. Essas são as duas perguntas que eu mais recebo. Eu direi que quando as âncoras de IA são usadas, a emissora de notícias coloca um símbolo que diz âncora de IA, para que as pessoas saibam que parece a âncora principal. Parece a âncora principal. Mas o que está sendo apresentado agora é, na verdade, a versão AI dessa âncora apresentando as novidades para mim.

E como isso é apresentado? É algo na parte inferior da tela no chyron?

Sim Normalmente, é algo na parte inferior da tela no chyron. Eu forneci algumas imagens para vocês, e vocês verão as letras reais em inglês AI seguidas por alguns símbolos coreanos que indicam que esta é a âncora da IA e que está meio proeminente na tela durante a apresentação.

Ter esse tipo de rotulagem é uma necessidade ética no que diz respeito à sua empresa?

É uma recomendação da nossa empresa, mas, no final das contas, é uma decisão da rede sobre como eles querem interagir com o público. Imagino que seja uma negociação entre a rede e o talento, mas está realmente fora do nosso escopo. Isso meio que acontece a portas fechadas. Estamos muito felizes em ver a forma ética e responsável como eles estão sendo usados. Mas, novamente, não é realmente nosso papel dizer às pessoas como fazer isso.

Bem, esses já são dois mercados muito diferentes. A Coreia do Sul é uma sociedade democrática. Na China, é a mídia controlada pelo estado. Você sabe muito bem, é controlado pelo partido. Então, houve diferentes tipos de conversas? Você diz que essas conversas foram inteiramente internas para essas organizações ou elas estão indo e voltando com você?

As conversas entre a rede e o talento foram de que estamos praticamente a portas fechadas. Não temos acesso a essas informações. Posso dizer que, do ponto de vista da implementação, a infraestrutura de nuvem que foi usada e, no geral, de algumas é a nuvem, outras estão no local. E sem querer ser muito técnico aqui...

Tudo bem, você pode ser técnico.

Então, eu diria que no mercado chinês, eles queriam muito mais coisas feitas no local. Você pode imaginar que tudo é controlado em um local central, onde nas implementações coreanas era mais feito na nuvem.

Só para voltar à ética aqui da implantação... existe um livro de regras éticas aqui em vigor ou, em caso afirmativo, quem o escreveu? Você é uma empresa? Você está discutindo com outras filiais [de mídia]? Você está pensando em levar isso para os Estados Unidos. Quem está definindo as diretrizes éticas?

Eu diria que é uma indústria em rápido crescimento, com humanos virtuais e mídias em rota de colisão, e estamos meio que aprendendo à medida que avançamos. Há considerações éticas, há considerações de segurança. Mas, no final das contas, vemos isso como outra ferramenta para criar conteúdo. É uma ferramenta nova e há novas perguntas sobre ela, mas na verdade é apenas uma ferramenta para criar novos conteúdos de vídeo. Assim como um editor de vídeo é uma ferramenta que você pode usar em editores de áudio, é ou você pode usar a IA como outra ferramenta. E acho que você vê a IA sendo aplicada em vários pontos ao longo do processo de produção de vídeo.

Com certeza é. Quero dizer, a IA e o aprendizado de máquina são grandes partes dos fluxos de trabalho agora. Mas essa é uma categoria totalmente diferente. Isso vive à sua maneira. Você fala sobre replicar uma pessoa e apresentar ou fabricar a pessoa. É uma construção totalmente diferente das outras aplicações, que são, eu acho, muito mais rotineiras e não são realmente controversas, exceto as preocupações que as pessoas têm sobre a eliminação de empregos, potencialmente.

Quero entrar no fato de que isso entra em um território perigoso de cruzamento com vídeos deepfake, que todos nós já vimos e que são amplamente empregados em campanhas de desinformação na Internet e nas mídias sociais. Então, se esse tipo de tecnologia ampliar seu uso legítimo entre organizações de notícias, que tipo de abertura você acha que isso cria para uma maior proliferação de deepfakes?

Essa é uma ótima pergunta. Acho que quero dar um passo atrás e dizer que o que estamos fazendo é muito diferente da tecnologia deepfake. O trabalho que estamos fazendo é uma síntese completa de vídeo. Então, pegamos uma pessoa real, fazemos uma gravação de vídeo, e essa gravação de vídeo são nossos dados de treinamento para criar um modelo de IA dessa pessoa. Eles optaram por todo o caminho. Então, quando esse modelo é criado, ele está vinculado à segurança na nuvem. E, normalmente, os direitos de retrato ou os direitos faciais são estendidos a esse modelo.

Portanto, a estação está legalmente autorizada a usar esse modelo para os fins pretendidos, todos contratados. Então, pura síntese de vídeo, verificações legais em cada etapa do processo. Garantir que todos participem e participem é o que estamos fazendo na Deep Brain.

Um deepfake começa com um vídeo real, então você precisa filmar uma pessoa ao vivo e colar o rosto de outra pessoa ao vivo em cima do vídeo que você gravou. Então, já no primeiro passo, somos diferentes. Na tecnologia de síntese de vídeo, não há necessidade de filmar. Um dia, filmamos para uma sessão de treinamento em vídeo, mas depois disso, todo o vídeo gerado é totalmente gerado por IA. Não há necessidade de atirar.

Esse vídeo gerado tem marca d'água de alguma forma que você possa autenticá-lo?

Sim, podemos mostrar por meio de metadados que eles vieram da nossa solução. E também existem freios e contrapesos que podemos colocar, mesmo que sejam tão simples quanto filtros de texto que, se uma rede quiser, podem limitar o que esse modelo de IA pode dizer ou não.

Vamos entender um pouco mais sobre como isso acontece, tecnicamente. Então, você mencionou que tem a pessoa, o talento, vem sentar em um estúdio e você faz com que eles gravem. Eles lêem várias frases enquanto estão sendo fotografados e gravados em áudio?

Normalmente, prepararemos um roteiro e esse roteiro conterá entre 500 e 1.000 frases ou enunciados. O que realmente estamos tentando fazer com essas frases e enunciados é aprender como eles movem a boca com todos os diferentes sons e todas as palavras diferentes e as transições de uma palavra para a outra, as pausas intermediárias. Então, usando esse script que preparamos, esses são os dados de treinamento para nossos modelos de aprendizado profundo.

E como você faz isso? Como as câmeras são configuradas no rosto da pessoa?

Normalmente, o talento está na frente de uma tela verde. Filmamos a cerca de um ou dois metros de distância, a um metro e meio de distância, com uma foto frontal. E tentamos ter uma cobertura completa da cabeça aos pés, de cima para baixo. E também temos a opção de fotografar em ângulos. Temos clientes que querem mudar de ângulo durante a apresentação da mídia, então também podemos fazer isso. Mas na fase mais simplista, é uma foto direta de frente, de corpo inteiro na frente de uma tela verde.

Então, eles estão usando um conjunto de roupas, provavelmente durante esta filmagem? Você pode trocar suas roupas como bonecas de papel em diferentes iterações quando elas vão ao ar?

Sim. Então, normalmente, quando fazemos as filmagens para o dia de treinamento, usamos várias roupas e vários penteados. Em nosso roteiro está a capacidade de mudar o penteado e a roupa sem precisar refilmar.

À medida que você implanta isso, esse gêmeo usa o aprendizado de máquina para melhorar sua verossimilhança? Ou o que você obtém dessa sessão é o que você tem daqui para frente?

É o último. O que criamos, o modelo que criamos fora da sessão, é então apenas um mecanismo. Não é um aprendizado contínuo. É um mecanismo que recebe texto e exporta vídeo para fora. E aquela saída de vídeo que está exportando, é aí que o aprendizado profundo foi aplicado. Como essa pessoa fala? Como eles movem a boca? Como eles piscam? Quando eles respiram? Tudo isso é um comportamento aprendido que entra no modelo. Podemos aprender com isso.

Desde aquela sessão de gravação até quando é possível emitir um gêmeo digital, quanto tempo dura esse processo?

Essa é uma ótima pergunta. Na verdade, são cerca de três semanas de tempo de máquina.

O outro lado disso é que sua empresa também cria essas pessoas digitais inteiras, e você realmente criou uma delas para nós em Verificação de notícias de TV. Por que não damos uma olhada rápida nisso agora?

Ótimo.

Isso é outra coisa. O que é necessário para criar essa pessoa totalmente construída?

Começamos com praticamente os mesmos processos do aprendizado profundo. Só que no vídeo que está sendo exibido, usamos um algoritmo de IA diferente para construir um rosto para essa pessoa. Então, começaremos com a imagem de uma pessoa real. Mas então pegue um rosto completamente sintético e junte os dois durante o processo de aprendizado profundo.

Você tinha uma mulher em pé no estúdio? Você estava atirando nela e está sobrepondo um rosto diferente ao corpo dela?

Na verdade, não é apenas uma pessoa. É uma estimativa de muitas pessoas diferentes.

Quantos tipos diferentes de avatares, se é que podemos chamá-los assim, você tem? É um número infinito de diferentes tipos de pessoas, diferentes gêneros, idades, raças, etc.?

Sim Isso é um pouco fora do assunto, mas acabamos de lançar 5.000 humanos virtuais na China, e foi um lançamento muito bem-sucedido para nós. E agora temos outros 5.000 prontos para usar, e na verdade é quase infinito na quantidade de variações e humanos virtuais que podemos criar.

Espere um pouco. O que você ganha ao comprar um NFT de uma pessoa virtual? O que é o produto?

Estava vinculado ao que era equivalente ao Dia dos Namorados na China. E você obtém o retrato da pessoa, e ela o chamava de namorado virtual ou namorada virtual. Agora, cada um desses modelos pode ser vinculado à nossa plataforma de software, chamada AI Studios. E se você optar por vinculá-lo ao AI Studios, você pode se inscrever e criar vídeos com aquela pessoa virtual que você acabou de comprar por meio deste NFT drop.

Eu nem... estou processando isso. É como Blade Runner até certo ponto.

Sim, esse foi mais um experimento divertido e o mercado de NFT é muito empolgante para nós, mas provavelmente está um pouco fora do escopo do que estamos fazendo com notícias e mídia.

Então, voltando a isso. Você tem alguma emissora americana que está chutando os pneus aqui?

Sim Então, todos os grandes nomes dos EUA estão trocando os pneus agora. Acho que os EUA em geral são um pouco mais cautelosos e estão meio que vendo como isso está acontecendo. Mas está realmente sendo adotado de forma rápida e rápida em toda a Ásia. E, em nossa opinião, chegará muito em breve aos EUA. Não posso compartilhar muitos detalhes sobre isso, mas estará aqui em breve.

Bem, aqueles com quem você está falando sobre isso, sobre o que eles estão falando sobre a possível implementação? A mesma coisa que vemos na Coréia?

Sim, eu diria que o principal caso de uso são esses pequenos segmentos curtos filmados ao longo do dia em que o talento está ocupado trabalhando em uma história ou em campo, mas precisa enviar algumas atualizações para o público. Então, a cada hora que os produtores do estúdio podem criar esses clipes e apresentar essas atualizações, aqui está o que estamos trabalhando para o programa desta noite ou aqui estão as últimas notícias sobre as quais falaremos mais esta noite. Então, esses pequenos cortes e segmentos são o que estamos vendo como complementando o feed de conteúdo para a franquia.

Então, em termos de onde isso vai se repetir no próximo ano, analisamos esse exemplo que você criou para nós e há uma espécie de redefinição não humana bizarra que a mulher faz entre suas frases. Há, você sabe, um pouco de “antinaturalidade” nisso. Como você está suavizando as bordas?

Muito atento de sua parte. Então, esse é um modelo de demonstração que usamos. Os modelos reais que criamos para mídia de transmissão são suavizados com todas aquelas pequenas coisas que você vê. E o modelo de demonstração é uma espécie de processo de ajuste pelo qual passamos para prepará-lo para a mídia de transmissão. Então, há uma pequena diferença de desempenho, mas quando passamos pela camada adicional de ajuste, é aí que chegamos lado a lado. É muito difícil determinar qual é a IA e qual é a pessoa real.

Bem, só a mãe pode dizer, ou talvez nem isso. Isso certamente é outra coisa. Estou muito interessado no feedback do público. Se você tem uma opinião sobre a ética, o lado técnico da implementação de uma tecnologia como essa, quais poderiam ser as implicações para a mídia local e nacional dos EUA, eu adoraria ouvir isso. Então, por favor, nos dê um feedback.

Esse é todo o tempo que temos, então temos que deixá-lo lá. Obrigado a Joe Murphy, da Deep Brain AI, por estar aqui hoje. Obrigada, Joe.

Tudo bem Obrigado, Michael.

Most Read

Most Read

Vamos ficar conectados

Nossa equipe está pronta para apoiá-lo em sua jornada humana virtual. Clique abaixo para entrar em contato e alguém entrará em contato em breve.