AI Humanは、ディープラーニングAI技術に基づいて人間の顔をテキストを入力するだけで学習することで、人間の話し言葉やイントネーションなどの声だけでなく、顔、表情、動きも動画を通じて自然に表現できる技術です。
本日は、ディープラーニングベースの画像合成に関連する学習モデルについて説明し、DeepBrain AIのAI Human実装技術について紹介します。
1) 主な学習技術モデル
[CNN 画像分類アルゴリズム]
畳み込みニューラルネットワークで共有ウェイト(フィルター)を適用して画像を解析する技術です。特徴とは、入力からさまざまな特徴から抽出されたデータを指します。
<CNN Architecture>
CNNの機能は、画像を分類して認識することです。
[ファン]
Generative Adversarial Networks(GAN)は、一見しただけで本物の「ありそうな偽物」を作り出し、本物との区別がつかなくなるまで学習を繰り返す敵対的ニューラルネットワークのディープラーニングモデルです。
コンストラクターがランダムノイズからイメージを生成した後、ディスクリミネーターは真のイメージとフェイクイメージを調べ、真/偽を判断してコンストラクターを学習します。
2) ディープブレインAIのオリジナル技術
<Lip Sync, Face Synthesis Technology>
リップシンク方式は、特定の人が話した動画に任意の音声を入力することで、元の画像を合成して、口の形が特定の音声と一致するようにすることで、音声からの画像の発話行動(口の形、顎の動き、首の動き)を制御する技術です。つまり、任意の音声の入力として話す人物画像と背景画像を合成できます。
音声に応じてさまざまな行動パターンを発達させるために、キャラクターの音声画像から特徴ベクトルを抽出して行動パターンの分布を伝えたり、音声から特徴ベクトルを学習して音声に応じた行動パターンを開発したりします。
<Real-time Video Synthesis Technology>
DeepBrain AIは、プロセス最適化技術の開発を通じてリアルタイム画像の合成に世界で初めて成功した企業です。顧客とリアルタイムでコミュニケーションできる映像合成を実現するには、大きく分けて3つの技術が必要です。1つ目は配置技術です。画像合成の速度を最適化するために、独自のバッチ処理技術を開発して適用しました。複数の合成要求を同時に処理することで、画像合成に必要なレイテンシを短縮することができます。2つ目は、キャッシュサーバー最適化技術です。ほとんどの会話はデータ化して保持できるので、繰り返し使用されることが予想される質問や会話はキャッシュサーバー上に構築され、リアルタイムで素早く動画を送信できます。そして最後は、アイドルフレーミング技術です。人工知能モデルが話している間は自然な表情ですが、ユーザーが話しているときにじっとしていると、非常に不自然に感じることがあります。これを克服するには、話しているときに自然な動きで聞いているような感覚をユーザーに与えることで、そのギャップを最小化できます。