テレビニュースチェックのマイケル・デップが、中国と韓国の報道機関向けにテレビのニュースキャスターのデジタルコピーを作成しているテクノロジー企業、ディープ・ブレインAIのジョー・マーフィーに、このテクノロジーの仕組み、それを取り巻く倫理的問題、米国のスクリーンにデジタルアンカーが表示される可能性について語りました。

ネットワークやテレビ局が、メインアンカーのAIベースのデジタルコピーを作成して、仕事の一部でちょっとしたピンチヒットをすることができたらどうなるか想像してみてください。

韓国と中国ですでに起きていて、韓国のDeep Brain AI社は4つの異なるネットワークと連携して、ニュースブリーフを読むデジタルコピーアンカーを制作している。

このTalking TVでの対談では、Deep Brain AIのビジネス開発マネージャーであるJoe Murphyが、そこでの実装、基盤となるテクノロジーの仕組み、そしてクライアントがデジタルコピーの使用に関する潜在的な倫理的懸念にどのように対処するかについて話します。また、米国の放送局がこのゲームに参入する可能性があるかどうかについても論じています。

Michael Depp: Deep Brain AI は、人工知能を使って実在の人物またはまったく新しいデジタル人物のデジタルツインを作成する企業です。彼らは韓国と中国の放送局と協力して、一日中ニュースを自動更新できるよう、アナウンサーのバーチャル版を作成してきました。

の編集者、マイケル・デップですテレビニュースチェック、これがTalking TVです。放送ビジネスについてのスマートな会話をお届けするポッドキャストです。次は、ディープ・ブレインAIのビジネス開発マネージャーであるジョー・マーフィーとの対談です。このテクノロジーの出現とニュースへの応用により、多くの技術的および倫理的な疑問が浮かび上がってきました。そのうちのいくつかについては、後ほどお聞きします。

ジョー・マーフィー、トーキングTVへようこそ。

ジョー・マーフィー:こんにちは、マイケル。呼んでくれてありがとう。ここにいることにワクワクしているよ。

ここに来てくれてうれしいです。ジョー、まずは当たり前の質問だ。なぜ合法的な報道機関が、放送のためにアンカーのバーチャルコピーを作ってこんなことをするんだ？

ええ、私にはそれは明白な答えのように思えます。なぜなら、北米の報道機関と話をしていると、彼らはすべて同じ課題に直面しているからです。毎年、より少ない予算でより多くの成果を上げるか、予算を増やさないかという課題に直面していますが、私たちにはもっと多くのコンテンツが必要です。そして、フランチャイズの顔や主役のデジタルツインやバーチャルヒューマンを作成することは、スラムダンクのように思えます。なぜなら、より多くのコンテンツを作成し、コストを削減し、カスタムコンテンツをより迅速に作成して、以前はアクセスできなかったさまざまなチャネルで公開できるようになったからです。つまり、より多く、より速く、より良くなることがすべてなのです。

韓国と中国で [この技術] について触れました。これらのものはこれまで具体的にどこで使われているのでしょうか？

Deep Brain自体は韓国のソウルに本社を置いており、実はこの技術を北米に導入している事業開発マネージャーのチームの一員です。私たちはこの技術でアジアで有利なスタートを切っています。当社には、韓国に2つ、中国に2つ、合計4つのネットワークがあり、これらが当社と協力してリードアンカーのデジタルツインを構築してきました。韓国ではMBNとアリランです。そして、中国ではBTVとCCTVです。これら4つのニュースステーションはすべて、Deep Brain AIのテクノロジーを使った放送局です。

そして、各ネットワークでそれぞれ1つのアンカーを使用していますか？

ええ、現時点では、それぞれがフランチャイズの顔かリードアンカーかを選んで、その人のデジタルツインを作成しました。そして、現在のところ、組織内の他のアンカーからも関心が寄せられていることがわかります。それはフランチャイズの顔にかなりこだわっています。

これらはパイロットプロジェクトなのか、それともどれくらいの期間続いているのか？

昨年の大半、つまり2021年は韓国のテレビにアンカーがいて、2021年後半には中国でキャスターがスタートしました。

さて、私が理解しているように、あなたはここで視聴者をだまそうとしているのではありません。これらのバーチャルアンカーにはそのようにラベルが付けられていますか？

はい。私たちは人をだまそうとはしていませんし、人を置き換えようともしていません。この二つは私が一番よく受ける質問です。AIアンカーを使うと、ニュースステーションがAIアンカーというシンボルを掲げて、それがリードアンカーのように見えることを人々に知らせます。リードアンカーのようですね。しかし、今表示されているのは、実際にはそのアンカーのAI版がニュースを私に伝えているものです。

そして、それはどのように提示されますか？それはカイロンの画面の下にある何かか？

はい。通常は、画面下部のカイロンにあるものです。皆さんのために映像をいくつか提供しましたが、実際の英字の AI に続けて韓国語の記号が続きます。これらの記号は AI アンカーで、プレゼンテーション中に画面上で目立ちます。

そのようなラベルを貼ることは、あなたの会社に関する限り、倫理的に必要ですか？

これは当社からの推薦ですが、結局のところ、それはネットワークによる決定であり、彼らが視聴者とどのように交流したいかということです。ネットワークとタレントの間の交渉だと思いますが、実際には私たちの範囲外です。そういうことは密室で起きているんです。これらが倫理的かつ責任ある方法で使われているのを見て、私たちはとても嬉しく思います。しかし、繰り返しになりますが、それは私たちが人々にその方法を教える場所ではありません。

さて、これらはすでに2つのまったく異なる市場です。韓国は民主主義社会です。中国では国家が管理するメディアです。ご存知の通り、メディアは党によって管理されています。それで、いろいろな会話があったんですか？あなたは、それらの会話はすべてその組織の内部的なものだったとおっしゃいますか、それともあなたとのやりとりがまったく行われていましたか？

ネットワークとタレントの間の会話では、私たちはほとんど密室で話していました。私たちはその情報を知りません。実装の観点から言えるのは、使用されていたクラウド・インフラストラクチャーで、残りはクラウドであり、一部はオンプレミスであると言えます。そして、ここではあまり技術的になりすぎないように...

大丈夫です。技術的なことはできます。

つまり、中国市場では、オンプレミスでもっと多くのことをしたいと考えていたと思います。韓国の実装ではクラウドでの管理が多かったのに、すべてが一元的に管理されていることが想像できます。

ここで展開の倫理に戻りますが... ここに倫理ルールブックはありますか？あるとしたら、誰がそれを書いているのでしょうか？あなたは会社としてですか？他の [メディア] 部門と話し合っているのですか？これをアメリカに移すことを考えているんですね。倫理指針を策定しているのは誰か。

バーチャルヒューマンとメディアがぶつかり合うような急成長を遂げている業界で、私たちは進みながら学んでいるようなものだと思います。倫理的な考慮事項もあれば、セキュリティ上の考慮事項もあります。しかし、結局のところ、私たちはこれをコンテンツ作成のもう一つのツールと見なしているのです。これは新しいツールであり、新しい疑問もありますが、実際には新しい動画コンテンツを作成するためのツールにすぎません。ビデオエディターがオーディオエディターで使うツールであるように、AIも別のツールです。そして、動画制作プロセスのさまざまな場面で AI が使われているのを目にすると思います。

絶対にそうです。つまり、AIと機械学習は今やワークフローの大きな部分を占めています。しかし、これはまったく別のカテゴリーです。これはそれなりに生きています。あなたはある人を複製して、その人を提示したり作り上げたりすることについて話します。これは他のアプリケーションとは全く異なる構成です。他のアプリケーションはもっと暗記されていて、仕事がなくなる可能性について人々が抱いている懸念以外は、あまり議論の余地がないと思います。

インターネットやソーシャルメディアでの偽情報キャンペーンで広く使われているディープフェイク動画が、危険なクロスオーバー領域に入り込んでいるという事実についてお話ししたいと思います。では、この種のテクノロジーが報道機関で合法的に使用されるようになった場合、ディープフェイクのさらなる拡散にどのようなきっかけが生まれると思いますか？

それは素晴らしい質問です。一歩下がって、私たちがやっていることはディープフェイク技術とは大きく違うと言いたいです。私たちがやっているのは完全なビデオ合成です。そこで、実在の人物を撮影し、そのビデオ撮影をトレーニングデータにして、その人物のAIモデルを作成します。彼らはあらゆる方法で選択しました。そして、そのモデルが作成されると、クラウド内のセキュリティに結び付けられます。そして通常、肖像権や顔権はそのモデルにも適用されます。

つまり、放送局は、そのモデルを本来の目的に使用しても法的に認められていますが、すべて委託されています。つまり、純粋にビデオ合成を行い、すべての段階でリーガルチェックを行います。Deep Brainでは、全員がオプトインして参加できるようにすることに取り組んでいます。

ディープフェイクは実際の動画から始まるので、生身の人物を撮影してから、撮影した動画の上に別の生身の人物の顔を貼り付ける必要があります。ですから最初の一歩で、私たちは違います。ビデオ合成技術では、撮影は不要です。ある日はビデオトレーニングセッションのために撮影しますが、その後は生成されるビデオはすべて完全にAIで生成されます。撮影する必要はありません。

生成された動画には、認証できるような方法で透かしが入っていますか？

はい、メタデータを通じて、それが私たちのソリューションから来たことを示すことができます。また、テキストフィルターのように単純なチェック・アンド・バランス機能も用意されており、ネットワークがそれを導入したい場合、そのAIモデルが言えることと言えないことを制限することができます。

これがどのように組み合わされるかについて、技術的にもう少し詳しく見ていきましょう。それで、あなたはタレントという人物がスタジオにいて、彼らにレコーディングをさせているとおっしゃいましたね。彼らは写真を撮ったり録音したりしている間に何文でも読み上げたの？

通常、スクリプトを用意し、そのスクリプトには500〜1,000の文または発話が含まれます。私たちがこれらの文章や発話で本当にやろうとしているのは、さまざまな音やさまざまな言葉で口を動かす方法や、ある単語から次の単語への遷移、その間の休止を学ぶことです。そこで、用意したスクリプトを使用して、ディープラーニングモデルのトレーニングデータを作成します。

そして、どうやってそれをするの？カメラは人物の顔にどのように設置されているの？

通常、タレントはグリーンスクリーンの前にいます。私たちは1、2メートルほど離れたところから、1.5メートル離れたところで正面から撮影します。そして、頭から足まで、上から下まで、フルカバーするようにしています。また、アングルで撮影するオプションもあります。メディアのプレゼンテーション中にアングルを変えたいというクライアントがいるので、それも可能です。しかし、最も単純なフェーズでは、グリーンスクリーンの前で全身を真っ直ぐに撮影します。

じゃあ、この撮影の間、彼らは一組の服を着ているの？彼らが放映されたら、ペーパードールのように服を何回も変えて着替えることはできますか？

うん。ですから、通常、トレーニング日の撮影では、複数の衣装と複数のヘアスタイルを試します。ロードマップには、実際に撮影し直さなくてもヘアスタイルや衣装を変更できる機能があります。

これをデプロイするにあたり、このツインは機械学習を使ってその真偽性をある程度向上させているのでしょうか？それとも、そのセッションから得られるものは、今後得られるものなのでしょうか？

後者です。私たちが作るもの、セッションから作るモデルは、ただのエンジンです。継続的に学習しているわけではありません。テキストを取り込み、ビデオをエクスポートするエンジンです。そして、エクスポートされたビデオ出力に、ディープラーニングが適用されたのです。この人はどうやって話すの？彼らはどうやって口を動かすの？彼らはどうやってまばたきするの？彼らはいつ呼吸するの？これらはすべて、モデルに組み込まれた学習済みの行動です。そこから学ぶことができます。

そのレコーディングセッションからデジタルツインを吐き出せるようになるまで、そのプロセスにはどれくらいの時間がかかりますか？

それは素晴らしい質問です。実際には、マシンタイムは約3週間です。

これとは反対に、あなたの会社もデジタル・ピープルをまるごと作り上げていて、あなたは実際に私たちのためにその1つを作ってくれましたテレビニュースチェック。さっそく見てみたらどうだ？

素晴らしい。

それは別のことです。この完全に作り上げられた人間を作るにはどうすればよいのだろう。

まず、ディープラーニングとほぼ同じプロセスから始めます。ただ、ビデオが流れると、別のAIアルゴリズムを使ってその人の顔を作っているだけです。そこで、実在の人物のフレームから始めましょう。しかし、ディープラーニングの過程で、完全に合成された顔を撮って、その2つをつなぎ合わせてください。

スタジオに女性が立ってたの？彼女を撮影してて彼女の体に違う顔を重ねてるの？

実際には一人だけではありません。これは多くの異なる人々の推定です。

そう呼べるなら、あなたは何種類のアバターを持っていますか？性別、年齢、人種など様々なタイプの人が無数に存在するのでしょうか？

はい。これは少し話題から外れていますが、中国で5,000人のバーチャルヒューマンをNFTドロップしたところ、非常に成功したローンチとなりました。そして今では、さらに5,000人が準備できていて、作成できるバリエーションとバーチャルヒューマンの数はほぼ無限です。

ちょっと待ってバーチャルパーソンのNFTを購入すると何が得られますか？どんな商品ですか？

それは中国のバレンタインデーに相当するものと結びついていました。そして、その人物のポートレートを手に入れると、彼らはそれをバーチャルボーイフレンドまたはバーチャルガールフレンドと呼んでいました。これで、これらの各モデルを AI Studios と呼ばれる当社のソフトウェアプラットフォームにリンクできるようになりました。また、AI Studios にリンクすることを選択した場合は、サインアップして、この NFT ドロップで購入した仮想人物と一緒に動画を作成できます。

これも... まだ処理してないみたいな感じだブレードランナーある程度まで。

ええ、これはもっと楽しい実験だったし、NFT市場は私たちにとって非常にエキサイティングですが、ニュースやメディアで行っていることの範囲を少し外れているかもしれません。

それでは話に戻りましょう。ここで騒いでるアメリカの放送局はいるかい？

はい。それで、アメリカの有名人はみんな今疲れ果てています。アメリカは全体的にもう少し慎重で、この状況はどうなっているか見ていると思います。しかし、アジア全域で急速に普及しつつあります。そして、私たちの考えでは、間もなく米国でも導入されると考えているので、詳細についてはあまり詳しく説明できませんが、まもなく実現するでしょう。

さて、あなたがこれについて話している人たちは、潜在的な実装について何を話しているのですか？韓国で見られるのと同じことですか？

ええ、主なユースケースは、タレントがストーリーの作成や現場で忙しくしているのに、視聴者に最新情報を伝える必要があるような、一日中撮影された短い短いセグメントだと思います。そこで、スタジオのプロデューサーがこれらのクリップを作成し、最新情報を発表できるように、1時間おきに、今夜のショーに向けて取り組んでいること、または今晩お話しする最新のニュース速報を紹介します。そして、私たちが目にしているのは、フランチャイズフェイスのコンテンツフィードを補う小さなカットオーバーやセグメントです。

それで、これが来年どこで繰り返されるかという点では、あなたが私たちのために作成したこの例を見ましたが、女性が文章の合間に行う一種の奇妙な非人間的なリセットがあります。ご存知のとおり、これにはある種の「不自然さ」があります。そこのエッジはどうやってなめらかにしているんですか？

あなたのことをとても観察しています。これが私たちが使っているデモモデルです。私たちが放送メディア向けに作成する実際のモデルは、皆さんが目にするようなささいなことをすべて含めて滑らかになっています。そして、デモモデルは、放送メディア向けに準備するために私たちが行うチューニングプロセスのようなものです。そのため、パフォーマンスには若干違いがありますが、チューニングの追加レイヤーを経ると、それが並べて行われます。どちらが AI で、どちらが実在の人物かを判断するのは非常に難しいです。

まあ、母親だけが言えるか、それすら分からないかもしれません。これは確かに別のことです。観客からのフィードバックにはとても興味があります。このようなテクノロジーを実装することの倫理的側面、技術的側面、そしてそれが米国の地元および全国のメディアにどのような影響を与える可能性があるかについて、ご意見がありましたら、ぜひお聞かせください。ですから、ぜひフィードバックをお願いします。

時間があるのはそれだけなので、そのままにしておかなければなりません。今日ここにいてくれたディープ・ブレインAIのジョー・マーフィーに感謝します。ありがとう、ジョー。

大丈夫。ありがとう、マイケル