Скоро ли появятся якоря с искусственным интеллектом? - DeepBrainAI

Updated on
July 5, 2024
|
Event & Webinar
Published
September 20, 2022

Проверка телевизионных новостейМайкл Депп беседует с Джо Мерфи из Deep Brain AI, технологической компании, которая создает цифровые копии ведущих телевизионных новостей для изданий в Китае и Южной Корее, о том, как работает технология, этические проблемы, связанные с ней, и о вероятности появления цифровых ведущих на экранах США.

Представьте себе, что телеканал или телеканал смогут создать цифровую копию своего главного ведущего на основе искусственного интеллекта, что позволит им немного потрудиться над частью работы.

Это уже происходит в Южной Корее и Китае, где южнокорейская компания Deep Brain AI сотрудничает с четырьмя различными сетями, где ведущие цифровых копий читают сводки новостей.

В своем выступлении по Talking TV Джо Мерфи, менеджер по развитию бизнеса Deep Brain AI, рассказывает о внедрении этой технологии, о том, как работает базовая технология и как ее клиенты решают потенциальные этические проблемы, связанные с использованием цифровых копий. Он также обсуждает, могут ли американские вещатели подключиться к игре.

Майкл Депп: Deep Brain AI — это компания, которая использует искусственный интеллект для создания цифровых двойников реальных людей или совершенно новых цифровых людей. Они работали с вещательными компаниями Южной Кореи и Китая над созданием виртуальных версий ведущих для автоматического обновления новостей в течение дня.

Я Майкл Депп, редактор Проверка телевизионных новостей, а это подкаст Talking TV, в котором вы найдете умные разговоры о вещательном бизнесе. Скоро беседа с Джо Мерфи, менеджером по развитию бизнеса компании Deep Brain AI. Появление этой технологии и ее применение в новостях порождает множество технических и этических вопросов, и я вскоре задам некоторые из них.

Добро пожаловать, Джо Мерфи, на Talking TV.

Джо Мерфи: Привет, Майкл. Спасибо, что пригласили меня. Я очень рад быть здесь.

Рад, что ты здесь. Джо, во-первых, очевидный вопрос: зачем любой законной новостной организации делать это, создавая виртуальную копию одного из своих ведущих, чтобы выйти в эфир?

Да, на мой взгляд, ответ очевиден, потому что, когда я разговаривал с новостными агентствами Северной Америки, все они столкнулись с одной и той же проблемой. Каждый год им приходится делать больше при меньших затратах или вообще не получать прибавки к бюджету, но нам нужно больше контента. А создать цифрового двойника или виртуального человека в роли лица или ведущего франшизы кажется просто нелепым делом, ведь теперь можно создавать больше контента, снижать затраты, быстрее создавать собственный контент, а затем распространять его по другим каналам, которые, возможно, раньше были недоступны. Итак, на самом деле все дело в том, что больше, быстрее, лучше.

Я упоминал [эту технологию] в Южной Корее и Китае. Где конкретно эти вещи используются до сих пор?

Штаб-квартира Deep Brain находится в Сеуле, Корея, и я на самом деле являюсь частью команды менеджеров по развитию бизнеса, которые внедряют эту технологию в Северную Америку. У нас есть преимущество в Азии с этой технологией. У нас есть четыре сети (две в Корее и две в Китае), которые совместно с нами создали цифровой двойник своего ведущего. В Корее это MBN и Arirang. А в Китае это BTV и CCTV. Все четыре из этих новостных станций ведут передачи ведущих, используя технологию Deep Brain AI.

И каждый из них использует один якорь в каждой сети?

Да, на данный момент каждый из них выбрал что-то свое — лицо франшизы или ведущий — и создал цифрового двойника этого человека. И мы видим интерес со стороны других ведущих в своих организациях на данный момент. Это в значительной степени соответствует внешнему виду франшизы.

Это пилотные проекты или как долго они реализуются?

Большую часть прошлого года, то есть 2021 года, ведущие выступали на корейском телевидении, а затем, в конце 2021 года, они начали работать в Китае.

Насколько я понимаю, здесь вы не пытаетесь обмануть зрителей. Этих виртуальных ведущих называют таковыми?

Да. Мы не пытаемся обмануть людей и не пытаемся заменить их. Это два вопроса, которые мне чаще всего задают. Скажу, что при использовании ведущих, использующих искусственный интеллект, новостная станция вывешивает символ с надписью «Ведущий в искусственном интеллекте», чтобы люди знали, что телеканал похож на ведущего. Похоже на ведущего. Но то, что сейчас представлено, на самом деле представляет собой версию ведущего, передающего мне новости, с искусственным интеллектом.

И как это представлено? Это что-то в нижней части экрана в хироне?

Да. Обычно это что-то в нижней части экрана в хироне. Ребята, я предоставил вам несколько видеозаписей, и вы увидите настоящие английские буквы AI, а затем корейские символы, указывающие на то, что это ведущий искусственного интеллекта, и во время презентации он как бы выделяется на экране.

Является ли это этической необходимостью для вашей компании иметь такую маркировку?

Это рекомендация нашей компании, но, в конце концов, это решение сети и то, как она хочет взаимодействовать со своей аудиторией. Думаю, это переговоры между сетью и талантами, но на самом деле это выходит за рамки нашей компетенции. Такое происходит за закрытыми дверями. Мы очень рады, что они используются таким этичным и ответственным образом. Но опять же, не наше дело рассказывать людям, как это делать.

Что ж, это уже два совершенно разных рынка. Южная Корея — демократическое общество. В Китае это контролируемые государством СМИ. Вы прекрасно знаете, что они контролируются партией. Итак, были ли разные разговоры? Вы говорите, что эти разговоры носили исключительно внутренний характер в этих организациях или же они вообще общались с вами?

В разговорах между сетью и талантами говорилось, что мы почти за закрытыми дверями. Мы не в курсе этой информации. С точки зрения внедрения я могу сказать, что использовалась облачная инфраструктура, а часть — облачная, а часть — локальная. И не хочу вдаваться в технические подробности...

Все в порядке, можете обратиться к техническим вопросам.

Поэтому, я бы сказал, что на китайском рынке они хотели сделать гораздо больше на месте. Вы можете себе представить, что все контролируется централизованно, тогда как в корейских реализациях это было больше сделано в облаке.

Вернемся к этике развертывания... существует ли здесь свод этических правил или, если да, то кто его пишет? Являетесь ли вы компанией? Вы ведете переговоры с представителями других [СМИ]? Вы подумываете о том, чтобы перенести это в Штаты. Кто разрабатывает этические принципы?

Я бы сказал, что это быстрорастущая отрасль, где виртуальные люди и средства массовой информации находятся на грани столкновения, и мы учимся по ходу дела. Есть этические соображения, есть соображения безопасности. Но на самом деле мы рассматриваем это как еще один инструмент для создания контента. Это новый инструмент, и по нему возникают новые вопросы, но на самом деле это просто инструмент для создания нового видеоконтента. Подобно тому, как видеоредактор — это инструмент, который вы можете использовать в аудиоредакторах, искусственный интеллект — это еще один инструмент. И я думаю, вы видите, что искусственный интеллект применяется в разных местах в процессе производства видео.

Безусловно, так оно и есть. Я имею в виду, что искусственный интеллект и машинное обучение сейчас играют важную роль в рабочих процессах. Но это совсем другая категория. Это живет по-своему. Вы говорите о том, как воспроизвести человека, представить его или выдумать. Это совершенно иная конструкция, чем другие приложения, которые, на мой взгляд, гораздо более обыденны и не вызывают особых споров, за исключением опасений, которые люди испытывают по поводу потенциального увольнения с работы.

Я хочу обратить внимание на тот факт, что все мы видели и которые широко используются в кампаниях по дезинформации в Интернете и социальных сетях. Итак, если новостные организации на законных основаниях будут использовать эту технологию, как вы думаете, какие возможности это откроет для дальнейшего распространения дипфейков?

Отличный вопрос. Думаю, я хочу сделать шаг назад и сказать, что то, что мы делаем, сильно отличается от технологии дипфейков. Наша работа — это полный синтез видео. Итак, мы снимаем реального человека, снимаем видео, и эта видеосъемка — это наши обучающие данные для создания модели этого человека с искусственным интеллектом. Они сделали выбор во всём этом. Затем, когда эта модель создается, она привязывается к безопасности в облаке. И, как правило, права на портрет или лицо распространяются на эту модель.

Таким образом, по закону станция имеет право использовать эту модель по назначению, и все это по контракту. Итак, синтез видео в чистом виде, юридические проверки на каждом этапе. Мы в Deep Brain работаем над тем, чтобы все были готовы принять участие и принять участие.

Дипфейк начинается с реального видео, поэтому вам нужно снять живого человека, а затем наклеить лицо другого живого человека поверх снятого видео. Итак, уже на первом этапе мы разные. В технологии синтеза видео нет необходимости в съемке. Один день мы снимаем видеоурок, но после этого все созданное видео полностью создается искусственным интеллектом. Нет необходимости снимать.

Это видео, созданное водяным знаком, таким образом, чтобы его можно было аутентифицировать?

Да, мы можем показать с помощью метаданных, что оно получено из нашего решения. Кроме того, мы можем использовать такие простые системы сдержек и противовесов, как и текстовые фильтры: если сеть захочет их ввести, она может ограничивать то, что может сказать модель искусственного интеллекта, а что нет.

Давайте немного подробнее разберемся в том, как все это сочетается с технической точки зрения. Итак, вы сказали, что у вас есть человек, талант, который приходит в студию и заставляет его записываться. Они зачитывают сколько угодно предложений, пока их фотографируют и записывают на аудиозапись?

Как правило, мы готовим сценарий, содержащий от 500 до 1000 предложений или высказываний. На самом деле мы пытаемся понять, как в этих предложениях и высказываниях звучат разные звуки и слова, а также как они переходят от одного слова к другому, а между ними — паузы. Таким образом, на основе подготовленного нами сценария мы собираем обучающие данные для наших моделей глубокого обучения.

И как это сделать? Как камеры расположены на лице человека?

Как правило, талант находится перед зеленым экраном. Мы снимаем с расстояния в один-два метра, на расстоянии полутора метров, выстрел в лоб. И мы стараемся снимать с ног до головы, сверху вниз, при полном охвате. А еще у нас есть возможность съемки под разными углами. У нас есть клиенты, которые хотят менять ракурсы во время презентации для СМИ, поэтому мы тоже можем это сделать. Но если говорить проще, то это прямой кадр в лоб, снятый в полный рост перед зеленым экраном.

Значит, во время съемок они одеты в один комплект одежды? Можешь ли ты переодеваться им, как бумажные куклы, в разное время, когда они выходят в эфир?

Ага. Поэтому, как правило, во время съемок в тренировочный день мы выбираем несколько нарядов и причесок. Наша дорожная карта — возможность менять прическу и одежду без необходимости переснимать.

Использует ли этот двойник машинное обучение для повышения правдоподобия при развертывании этой системы? Или же то, что вы получите от этого сеанса, то же, что и в будущем?

Это последнее. То, что мы создаем, модель, которую мы создаем в ходе сеанса, — это просто движок. Это не постоянное обучение. Это движок, который принимает текст и экспортирует видео. Именно в том видео, которое мы экспортируем, было применено глубокое обучение. Как говорит этот человек? Как они двигают ртом? Как они моргают? Когда они дышат? Все это — усвоенное поведение, заложенное в модель. Мы можем извлечь из этого уроки.

Сколько времени займет этот процесс, начиная с сеанса записи и заканчивая тем, когда появится цифровой двойник?

Отличный вопрос. На самом деле машинное время занимает около трех недель.

С другой стороны, ваша компания также создает этих цифровых людей целыми руками, и вы действительно создали одного из них для нас по адресу Проверка телевизионных новостей. Почему бы нам сейчас не взглянуть на это вкратце?

Отлично.

Это совсем другое. Что нужно для создания этого полностью сконструированного человека?

Мы начинаем практически с тех же процессов глубокого обучения. Просто во время просмотра видео мы используем другой алгоритм искусственного интеллекта, чтобы создать лицо этого человека. Итак, начнем с кадра реального человека. Но затем возьмите полностью синтетическое лицо и соедините эти два изображения в процессе глубокого обучения.

У вас в студии стояла женщина? Ты снимал её и накладываешь на её тело другое лицо?

На самом деле это не просто один человек. Это оценка множества разных людей.

Сколько у вас разных аватаров, если их можно так назвать? Это бесконечное количество разных типов людей, разных полов, возрастов, рас и т. д.?

Да. Это немного не по теме, но мы только что запустили NFT на 5000 виртуальных людей в Китае, и для нас это был очень успешный запуск. Теперь у нас есть еще 5000 готовых к работе, и количество вариаций и виртуальных людей, которых мы можем создать, действительно практически безгранично.

Держись. Что вы получите, купив NFT виртуального человека? Что такое продукт?

Это было приурочено к Дню святого Валентина в Китае. И вы видите портрет человека, и он называл его своим виртуальным парнем или виртуальной девушкой. Теперь каждую из этих моделей можно подключить к нашей программной платформе под названием AI Studios. А если вы решите привязать приложение к AI Studios, вы можете зарегистрироваться и создавать видеоролики с участием виртуального человека, которого вы только что приобрели в этом магазине NFT.

Я даже... не занимаюсь этим. Это как Бегущий по лез в некоторой степени.

Да, это был более увлекательный эксперимент, и рынок NFT очень интересен для нас, но, вероятно, он немного выходит за рамки того, что мы делаем с новостями и СМИ.

Итак, вернемся к этому. Есть ли у вас американские вещатели, которые ломают шины?

Да. Итак, все известные имена в США сейчас ломают голову. Я думаю, что США в целом немного осторожнее и видят, что из этого получится. Но на самом деле оно быстро и быстро внедряется в Азии. На наш взгляд, она скоро появится в США. Я не могу вдаваться в подробности, но скоро она появится.

Что ж, те, с кем вы об этом говорите, о чем они говорят в связи с потенциальной реализацией? То же самое, что мы наблюдаем в Корее?

Да, я бы сказал, что основной вариант использования — это короткие короткие фрагменты, снятые в течение дня, когда таланты заняты работой над сюжетом или в полевых условиях, но им нужно донести до аудитории новости. Итак, каждый час или около того, чтобы продюсеры студии могли создавать эти клипы и представлять обновления, вот над чем мы работаем для сегодняшнего шоу или последние новости, о которых мы поговорим сегодня вечером подробнее. Итак, эти небольшие фрагменты и фрагменты, как мы видим, дополняют ленту контента для лица франшизы.

Итак, с точки зрения того, что произойдет в следующем году, мы рассмотрели пример, который вы создали для нас, и увидели своего рода странную нечеловеческую перезагрузку, которую женщина делает между предложениями. Знаете, в этом есть некая «неестественность». Как вы сглаживаете углы?

Очень внимателен к вам. Итак, это демонстрационная модель, которую мы используем. Фактические модели, которые мы создаем для вещательных СМИ, дополнены всеми теми мелочами, которые вы видите. А демонстрационная модель — это своего рода процесс настройки, который мы проводим, чтобы подготовить ее для вещательных СМИ. Таким образом, есть небольшая разница в производительности, но когда мы перейдем к дополнительному уровню настройки, мы перейдем к настройке бок о бок. Очень сложно определить, кто такой искусственный интеллект, а кто настоящий человек.

Что ж, об этом может рассказать только мать, а может и нет. Это, конечно, нечто другое. Мне очень интересна обратная связь от аудитории. Если у вас есть мысли об этике, технической стороне внедрения подобных технологий, о том, какими могут быть последствия для местных и национальных СМИ США, мне бы очень хотелось их услышать. Поэтому, пожалуйста, поделитесь с нами своим мнением.

Это все время, которое у нас есть, поэтому мы должны оставить его там. Спасибо Джо Мерфи из Deep Brain AI за то, что он сегодня здесь. Спасибо, Джо.

Все в порядке. Спасибо, Майкл.

Most Read

Most Read

Оставайтесь на связи

Наша команда готова поддержать вас в вашем виртуальном человеческом путешествии. Нажмите ниже, чтобы связаться с нами, и в ближайшее время с вами свяжутся.