¿Llegarán pronto los presentadores de IA? - DeepBrainAI

Updated on
July 5, 2024
|
Event & Webinar
Published
September 20, 2022

Verificación de noticias de televisiónMichael Depp habla con Joe Murphy de Deep Brain AI, una empresa de tecnología que crea copias digitales de presentadores de noticias de televisión para medios de China y Corea del Sur, sobre cómo funciona la tecnología, las cuestiones éticas que la rodean y la probabilidad de que veamos a presentadores digitales en las pantallas estadounidenses.

Imagínese si una cadena o estación de televisión pudiera crear una copia digital basada en inteligencia artificial de su presentador principal, lo que les permitiría hacer un poco de esfuerzo durante partes del trabajo.

Ya está ocurriendo en Corea del Sur y China, donde la empresa surcoreana Deep Brain AI trabaja con cuatro redes diferentes en la redacción digital de presentadores que leen noticias breves.

En esta conversación de Talking TV, Joe Murphy, gerente de desarrollo empresarial de Deep Brain AI, habla sobre la implementación allí, cómo funciona la tecnología subyacente y cómo sus clientes abordan las posibles preocupaciones éticas en torno al uso de copias digitales. También analiza si las emisoras estadounidenses podrían entrar en el juego.

Michael Depp: Deep Brain AI es una empresa que utiliza inteligencia artificial para crear gemelos digitales de personas reales o personas digitales completamente nuevas. Han estado trabajando con emisoras de Corea del Sur y China para crear versiones virtuales de los presentadores de ese país para actualizar automáticamente las noticias a lo largo del día.

Soy Michael Depp, editor de Verificación de noticias de televisión, y este es Talking TV, el podcast que ofrece conversaciones inteligentes sobre el negocio de la radiodifusión. Próximamente, una conversación con Joe Murphy, director de desarrollo empresarial de Deep Brain AI. La llegada de esta tecnología y su aplicación a las noticias abre una serie de cuestiones técnicas y éticas, y abordaré algunas de ellas en un momento.

Bienvenido, Joe Murphy, a Talking TV.

Joe Murphy: Hola, Michael. Gracias por invitarme. Me emociona estar aquí.

Me alegro de que estés aquí. Joe, la primera pregunta es obvia: ¿por qué una organización de noticias legítima haría algo así, creando una copia virtual de uno de sus presentadores para salir al aire?

Sí, a mí me parece una respuesta obvia porque, cuando he estado hablando con agencias de noticias en Norteamérica, todas se enfrentan al mismo desafío. Cada año se enfrentan al desafío de hacer más con menos o de no recibir aumentos presupuestarios, pero necesitamos más contenido. Y crear un gemelo digital o un humano virtual con la cara de la franquicia o el presentador principal parece un éxito, ya que ahora puedes crear más contenido, reducir los costos y crear contenido personalizado más rápido y luego distribuirlo en diferentes canales a los que antes no estaban accesibles. Por lo tanto, en realidad se trata de más, más rápido y mejor.

Mencioné [esta tecnología en] Corea del Sur y China. ¿Dónde específicamente se están utilizando estas cosas hasta ahora?

La propia Deep Brain tiene su sede en Seúl (Corea) y, de hecho, formo parte de un equipo de gerentes de desarrollo empresarial que están llevando esta tecnología a Norteamérica. Tenemos una ventaja en Asia con esta tecnología. Tenemos cuatro redes, dos en Corea y dos en China, que han trabajado con nosotros para crear un gemelo digital de su principal presentadora. En Corea, son MBN y Arirang. Y luego en China son BTV y CCTV. Estas cuatro estaciones de noticias son presentadoras que utilizan la tecnología de Deep Brain AI.

¿Y cada uno usa un único ancla en cada red?

Sí, en este momento, cada uno ha elegido tomar su cara de franquicia o su presentador principal y crear un gemelo digital de esa persona. Y vemos interés por parte de otros presentadores de sus organizaciones actuales. Se está quedando prácticamente con la cara de la franquicia.

¿Se trata de proyectos piloto o cuánto tiempo llevan en marcha?

Durante la mayor parte del año pasado, es decir, 2021, hubo presentadores en la televisión coreana y, a finales de 2021, empezaron en China.

Ahora, según tengo entendido, no estás intentando engañar a los espectadores. ¿Estas presentadoras virtuales están siendo etiquetadas como tales?

Sí. No estamos intentando engañar a la gente ni estamos intentando reemplazar a la gente. Esas son las dos preguntas que más me hacen. Diré que cuando se utilizan los presentadores de IA, la emisora de noticias pone un símbolo que dice «presentador de IA», para que la gente sepa que se parece al presentador principal. Suena como el presentador principal. Pero lo que se presenta ahora mismo es en realidad la versión artificial de ese presentador que me presenta las noticias.

¿Y cómo se presenta? ¿Hay algo en la parte inferior de la pantalla, en el quiron?

Sí. Por lo general, es algo en la parte inferior de la pantalla, en el quiron. Os proporcioné algunas imágenes, y veréis las propias letras inglesas AI seguidas de algunos símbolos coreanos que indican que se trata del presentador de la IA y que aparecen en la pantalla durante la presentación.

Tener ese tipo de etiquetado, ¿es una necesidad ética en lo que respecta a su empresa?

Es una recomendación de nuestra empresa, pero al final del día, es una decisión de la cadena y de la forma en que quieren interactuar con su audiencia. Me imagino que es una negociación entre la cadena y el talento, pero en realidad está fuera de nuestro alcance. En cierto modo, eso ocurre a puerta cerrada. Estamos muy contentos de ver la forma ética y responsable en que se utilizan. Pero, repito, no es realmente nuestro deber decirle a la gente cómo hacerlo.

Bueno, ya son dos mercados muy diferentes. Corea del Sur es una sociedad democrática. En China, son medios de comunicación controlados por el estado. En gran medida, ya sabes, está controlado por el partido. Entonces, ¿hubo diferentes tipos de conversaciones? ¿Dices que esas conversaciones fueron totalmente internas para esas organizaciones o son solo de ida y vuelta contigo?

Las conversaciones entre la cadena y el talento fueron que prácticamente estamos a puerta cerrada. No tenemos conocimiento de esa información. Puedo decir, desde el punto de vista de la implementación, que la infraestructura de nube que se utilizó es, en general, en la nube y otra en las instalaciones. Y no quiero ser demasiado técnico al respecto...

Está bien, puedes ponerte técnico.

Por lo tanto, yo diría que en el mercado chino querían que se hiciera mucho más in situ. Puede imaginarse que todo se controla en una ubicación central, mientras que en las implementaciones coreanas se hacía más en la nube.

Volviendo a la ética del despliegue... ¿existe un reglamento ético aquí o, de ser así, quién lo escribe? ¿Lo sois como empresa? ¿Está conversando con otras ramas [de los medios de comunicación]? Estás pensando en mudar esto a los Estados Unidos. ¿Quién establece las pautas éticas?

Yo diría que es una industria de rápido crecimiento con humanos y medios virtuales en curso de colisión y que estamos aprendiendo a medida que avanzamos. Hay consideraciones éticas, hay consideraciones de seguridad. Pero en realidad, al final del día, vemos esto como otra herramienta para crear contenido. Es una herramienta nueva y hay nuevas preguntas al respecto, pero en realidad es solo una herramienta para crear nuevos contenidos de vídeo. Así como un editor de vídeo es una herramienta que puedes usar en los editores de audio, o puedes usar la IA como otra herramienta. Y creo que ves que la IA se aplica en varios puntos a lo largo del proceso de producción de vídeo.

Absolutamente lo es. Quiero decir, la IA y el aprendizaje automático son ahora una parte importante de los flujos de trabajo. Pero esta es una categoría completamente diferente. Esto vive a su manera. Hablas de replicar a una persona y presentarla o inventarla. Se trata de un planteamiento totalmente diferente al de las demás aplicaciones, que, en mi opinión, son mucho más rutinarias y no son realmente controvertidas, aparte de las preocupaciones que la gente tiene sobre la posible eliminación de puestos de trabajo.

Quiero explicar el hecho de que esto entra en un peligroso terreno cruzado con los vídeos deepfake, que todos hemos visto, y que se utilizan ampliamente en campañas de desinformación en Internet y las redes sociales. Por lo tanto, si este tipo de tecnología amplía su uso legítimo entre las organizaciones de noticias, ¿qué tipo de oportunidad cree que se abre para una mayor proliferación de los deepfakes?

Esa es una gran pregunta. Creo que quiero dar un paso atrás y decir que lo que estamos haciendo es muy diferente de lo que es la tecnología deepfake. El trabajo que estamos haciendo es una síntesis de vídeo completa. Tomamos a una persona real, grabamos un vídeo y esa grabación son nuestros datos de entrenamiento para crear un modelo de IA de esa persona. Han optado por ello en todo momento. Luego, cuando se crea ese modelo, se vincula a la seguridad dentro de la nube. Y, por lo general, los derechos de retrato o los derechos faciales se extienden a ese modelo.

Por lo tanto, la estación está legalmente autorizada a utilizar ese modelo para los fines previstos que están todos subcontratados. Así que, pura síntesis de vídeo, verificaciones legales en cada paso del proceso. En Deep Brain estamos trabajando en asegurarnos de que todo el mundo se suscriba y participe.

Un deepfake comienza con un video real, por lo que debes fotografiar a una persona en vivo y luego debes pegar la cara de otra persona en vivo encima del video que grabaste. Así que, ya en el primer paso, somos diferentes. En la tecnología de síntesis de vídeo, no es necesario grabar. Grabamos un día para una sesión de entrenamiento en vídeo, pero después, todo el vídeo generado es completamente generado por IA. No hay necesidad de grabar.

¿El vídeo que se ha generado tiene una marca de agua de alguna manera que puedas autenticarlo?

Sí, podemos demostrar mediante metadatos que proviene de nuestra solución. Además, podemos establecer controles y contrapesos, aunque sean tan sencillos como filtros de texto, para limitar lo que el modelo de IA puede decir y no puede decir si una red quiere incluirlos.

Vamos a adentrarnos un poco más en la maleza de cómo se combina esto, técnicamente. Mencionaste que tenías a la persona, el talento, te sentabas en un estudio y la hacías grabar. ¿Leen varias frases mientras son fotografiadas y grabadas en audio?

Por lo general, prepararemos un guion y ese guion contendrá entre 500 y 1000 frases o enunciados. Lo que realmente estamos intentando hacer con esas frases y enunciados es aprender cómo mueven la boca con todos los diferentes sonidos y todas las diferentes palabras y las transiciones de una palabra a otra, las pausas intermedias. Por lo tanto, usando ese script que preparamos, esos son los datos de entrenamiento para nuestros modelos de aprendizaje profundo.

¿Y cómo se hace eso? ¿Cómo se colocan las cámaras en la cara de la persona?

Por lo general, el talento está frente a una pantalla verde. Disparamos a uno o dos metros de distancia, a un metro y medio de distancia, de frente. Y tratamos de conseguir una cobertura total de la cabeza a los pies, algo así como de arriba a abajo. Y también tenemos la opción de filmar en ángulos. Tenemos clientes que quieren cambiar de ángulo durante la presentación de los medios, así que nosotros también podemos hacerlo. Pero en la fase más simplista, se trata de un tiro frontal y de cuerpo entero frente a una pantalla verde.

Entonces, ¿llevan un conjunto de ropa, presumiblemente durante esta sesión? ¿Puedes cambiarles la ropa como si fueran muñecos de papel en diferentes iteraciones cuando salen al aire?

Sí. Por lo general, cuando hacemos la sesión fotográfica para el día de entrenamiento, usamos varios atuendos y varios peinados. En nuestra hoja de ruta está la posibilidad de cambiar el peinado y el atuendo sin tener que volver a filmar.

A medida que lo implementa, ¿este gemelo utiliza el aprendizaje automático para mejorar su verosimilitud? ¿O es lo que obtienes de esa sesión lo que tienes en el futuro?

Es lo último. Lo que creamos, el modelo que creamos a partir de la sesión, es entonces solo un motor. No es un aprendizaje continuo. Es un motor que recibe texto y exporta vídeo. Y esa salida de vídeo que está exportando es donde se aplicó el aprendizaje profundo. ¿Cómo habla esta persona? ¿Cómo mueven la boca? ¿Cómo parpadean? ¿Cuándo respiran? Todo esto es un comportamiento aprendido que se incluye en el modelo. Podemos aprender de eso.

Desde esa sesión de grabación hasta cuando puede escupir un gemelo digital, ¿cuánto dura ese proceso?

Esa es una gran pregunta. En realidad, son unas tres semanas de funcionamiento de la máquina.

La otra cara de esto es que tu empresa también crea a estas personas digitales de forma integral, y de hecho has creado una de ellas para nosotros en Verificación de noticias de televisión. ¿Por qué no lo analizamos rápidamente ahora mismo?

Genial.

Eso es otra cosa. ¿Qué implica hacer que esta persona esté completamente construida?

Empezamos prácticamente con muchos de los mismos procesos del aprendizaje profundo. Lo que pasa es que en el vídeo utilizamos un algoritmo de inteligencia artificial diferente para crear una cara para esa persona. Por lo tanto, comenzaremos con un cuadro de una persona real. Pero luego tomemos un rostro que sea completamente sintético y combine ambos durante el proceso de aprendizaje profundo.

¿Tenías a una mujer de pie en el estudio? ¿La fotografiabas y superponías una cara diferente a su cuerpo?

En realidad, no es solo una persona. Es una estimación de muchas personas diferentes.

¿Cuántos tipos diferentes de avatares, si podemos llamarlos así, tienes? ¿Es un número infinito de diferentes tipos de personas, diferentes géneros, edades, razas, etc.?

Sí. Esto está un poco fuera de tema, pero acabamos de lanzar un NFT de 5000 humanos virtuales en China, y fue un lanzamiento muy exitoso para nosotros. Y ahora tenemos otros 5000 listos, y la cantidad de variaciones y humanos virtuales que podemos crear es prácticamente infinita.

Aguanta. ¿Qué obtienes cuando compras un NFT de una persona virtual? ¿Qué es el producto?

Estaba vinculado a lo que era el equivalente al Día de San Valentín en China. Y obtienes el retrato de la persona, y lo llamaban su novio virtual o novia virtual. Ahora cada uno de esos modelos se puede vincular a nuestra plataforma de software, que se llama AI Studios. Y si decides vincularlo a AI Studios, puedes registrarte y crear vídeos con esa persona virtual que acabas de comprar a través de esta tienda de NFT.

Ni siquiera... estoy procesando esto. Es como Blade Runner hasta cierto punto.

Sí, fue más bien un experimento divertido y el mercado de los NFT es muy emocionante para nosotros, pero probablemente esté un poco fuera del alcance de lo que estamos haciendo con las noticias y los medios.

Así que volvamos a eso. ¿Hay alguna emisora estadounidense que esté dando una paliza aquí?

Sí. Así que, todos los grandes nombres de los Estados Unidos están dando una paliza ahora mismo. Creo que Estados Unidos, en general, es un poco más cauteloso y, en cierto modo, están viendo cómo se desarrolla esto. Pero en realidad se está adoptando cada vez más rápido en toda Asia. En nuestra opinión, llegará muy pronto a los EE. UU. No puedo dar demasiados detalles al respecto, pero estará aquí pronto.

Bueno, aquellos con quienes está hablando de esto, ¿de qué están hablando para la posible implementación? ¿Lo mismo que vemos en Corea?

Sí, yo diría que el caso de uso principal son estos pequeños segmentos cortos filmados a lo largo del día en los que el talento está ocupado trabajando en una historia o en el campo, pero necesitan hacer llegar algunas actualizaciones al público. Así que, cada hora que los productores del estudio puedan crear estos clips y presentar las actualizaciones, os contamos en qué estamos trabajando para el programa de esta noche o las últimas noticias de última hora de las que hablaremos más esta noche. Y es que esos pequeños cortes y segmentos son los que estamos viendo que complementan el feed de contenido para la cara de la franquicia.

Así que, en términos de dónde se repetirá esto el año que viene, analizamos este ejemplo que creaste para nosotros y hay una especie de extraño reinicio no humano que la mujer hace entre sus frases. Hay, ya sabes, algo de «antinaturalidad» en ello. ¿Cómo se alisan los bordes ahí?

Te observo mucho. Así que ese es un modelo de demostración que utilizamos. Los modelos actuales que creamos para los medios de radiodifusión se suavizan con todas esas pequeñas cosas que ves. Y el modelo de demostración es una especie de proceso de ajuste por el que pasamos para prepararlo para los medios de difusión. Por lo tanto, hay una pequeña diferencia de rendimiento, pero cuando pasamos por la capa adicional de afinación, ahí es donde pasamos a trabajar codo con codo. Es muy difícil determinar cuál es la IA y cuál es la persona real.

Bueno, solo la madre de uno puede saberlo, o tal vez ni siquiera eso. No cabe duda de que esto es otra cosa. Estoy muy interesado en los comentarios de la audiencia. Si tiene alguna opinión sobre la ética, el aspecto técnico de la implementación de una tecnología de este tipo y cuáles podrían ser las implicaciones para los medios de comunicación locales y nacionales de EE. UU., me encantaría escucharla. Así que, por favor, envíanos tu opinión.

Es todo el tiempo que tenemos, así que tenemos que dejarlo ahí. Gracias a Joe Murphy de Deep Brain AI por estar aquí hoy. Gracias, Joe.

Muy bien. Gracias, Michael.

Most Read

Most Read

Mantengámonos conectados

Nuestro equipo está listo para apoyarlo en su viaje humano virtual. Haga clic a continuación para comunicarse con nosotros y alguien se pondrá en contacto con usted en breve.