なぜSora AIには音が付いていないのですか?

Updated on
July 3, 2024
|
Best Tools
Published
July 4, 2024
An image of an AI avatar with its mouth covered with tape and the words Sora AI: CAN'T SPEAK?
そらあい、話せない?| ディープブレインAI

急速に進化する人工知能の世界では、OpenAIによるSora AIの導入は、テキストからビデオへの生成の分野で大きな飛躍を遂げました。テクノロジー愛好家もクリエイターもこの画期的なモデルの機能を模索する中で、1つの機能、というか、機能がないというか、機能が欠けていることが議論の渦を巻き起こしました。 ソラAIの音が出ない。 この投稿では、Sora AIの世界をDeepbrain AIのような同時代のものと比較して検証し、聴覚統合の将来について推測します。

リアルなテキストを動画に

Sora AI official page

拡散モデルであるSora AIは、動いている物理世界を理解してシミュレートするAIの能力が飛躍的に向上したことを示しています。Sora AI は、静的なノイズのような動画を首尾一貫したビジュアル・ナラティブに変換することで、画質を維持しながらユーザーの指示に従いながら、最長 1 分間の動画を生成できます。このテクノロジーは、映画製作者が潜在的なリスクを特定するためのツールであるだけでなく、ビジュアルアーティスト、デザイナー、レッドチームメンバーのクリエイティブなお供にもなり、デジタルクリエイティビティの新たなフロンティアを提供します。

モデルは言語を深く理解し、プロンプトを解釈する能力を持っているため、複雑なシーン、複数のキャラクター、さまざまな動きを正確かつ詳細に表現した動画を生成できます。Sora AI はその機能にもかかわらず、複雑なシーンの物理特性や原因と結果の正確なシミュレーションに苦労するなどの制限がないわけではありません。

Sora AI official page

ソラAIは音が出ない!

Image of Sora: wait but does it comes with sounds?! community post.
コミュニティの反応 | Via オープン AI コミュニティ

Sora AIで最も話題になっている側面の1つは、現在のサウンド不足です。その優れた視覚機能にもかかわらず、このモデルはいわゆる「ミュートモード」で動画を生成します。この制限から、完全に没入感のある動画体験を制作するうえでのモデルの適用性や、完全なナラティブにサウンドを必要とするクリエイターにとってこのモデルの有用性について疑問が生じています。

ソラAIVSディープブレインAI

Sora AIをDeepbrain AIのような他のAIモデルと比較する場合、それぞれに長所と焦点があることに注意することが重要です。Deepbrain AI は、本物そっくりのデジタルヒューマンの作成と音声合成の統合において飛躍的な進歩を遂げ、ビジュアルとサウンドの両方を含む、より包括的なビデオ生成アプローチを提供しています。この比較は、Sora AI の機能における現在のギャップを浮き彫りにし、没入感のある魅力的なビデオコンテンツを作成する上での聴覚要素の重要性を浮き彫りにしています。

An Image of ai studios
人工知能スタジオ 3.2 | ディープブレイン人工知能

Feature Sora AI Deepbrain AI's AI Studios
Core Technology Advanced scene generation and video continuity for cohesive storytelling Lifelike AI avatars with human-like text-to-speech and customizable scripts
Realism Highly realistic scene generation with nuanced emotion portrayal Lifelike avatars that mimic human expressions and speech, offering a personal touch in videos
Language Understanding Deep comprehension of language to interpret prompts and generate compelling narratives Supports over 80 languages, allowing for a wide range of voice and language options to enhance message clarity and impact
Applications Complex scene creation, narrative generation Wide range of use cases from automated video production to real-time AI avatar conversations, accessible without technical skills
Limitations May require more input for detailed scene creation Dependent on script input for content generation
Applicable Industries Entertainment, education, marketing Multiple industries including entertainment, education, marketing, customer service, and more, with versatile use across devices like mobile, PC, and kiosk

ディープブレインAIのAIスタジオの主な機能:

  • 本物そっくりのAIアバター: 人間の表情や話し方をまねて、動画に個性的なタッチを加えましょう。
  • カスタマイズ可能なスクリプト: ユーザーはAIアバターのスクリプトを入力して自然な声で配信できます。
  • 複数の言語: さまざまな言語をサポートし、世界中の視聴者に対応します。
  • 高品質グラフィックス: ビデオが高解像度で視覚的に魅力的であることを保証します。
AIスタジオのテキストからビデオへの自動生成のコンセプト | Deepbrain AI

ソラに勝る利点:

  • テキスト/スピーチの統合: 視覚的コンテンツと聴覚的コンテンツのシームレスな融合を可能にします。
  • 会話用のリアルタイムAIアバター: アバターとのリアルタイムの会話が可能になり、双方向性が向上します。
  • アクセシビリティ: 技術的なスキルを持たないユーザーのビデオ制作を完全に自動化し、コンテンツ制作を効率化します。
  • 言語と音声オプション: 80以上の言語をサポートし、グローバルなリーチを可能にします。音声選択機能により、メッセージの明瞭さとインパクトを高めることができます。
  • コストと時間の効率: 自動化を活用して迅速かつ費用対効果の高いコンテンツ制作を実現することで、ビデオ制作にかかる時間と費用投資を大幅に削減します。

ソラには音が出ますか?

The image showcase the AI's contemplation on whether to talk or not, represented through the use of speech bubbles or icons that symbolize speech and silence.
話すかどうかを考える人工知能 | ディープブレイン AI

興奮にもかかわらず、 このサウンドインテグレーションの公式リリース日は未定です、この画期的な機能をいつ目撃するのか多くの人が疑問に思っています。音声の統合は、Sora AI コミュニティからの最も差し迫ったフィードバックの一部に対応するものであり、テキスト・トゥ・ビデオ技術の新しいベンチマークを確立する可能性を秘めています。OpenAI は Sora AI の改良に熱心に取り組んでいるため、サウンドの統合は単なる更新の可能性が高いだけでなく、現実世界のインタラクションやストーリーテリングを模倣するモデルの可能性を最大限に引き出すための不可欠な機能強化と見なされています。

Sora AI official page

それまでの間、すでにサウンド機能を誇るAI主導の動画制作ツールを試してみたい人には、AI Studiosのような代替手段が未来を垣間見せてくれます。AI Studiosは、デジタル作品におけるオーディオとビジュアルの要素の統合を探求する機会をユーザーに提供する、最良の代替ソリューションとなる可能性があります。Sora AI の開発の次の章を待つにあたり、これらの代替案を模索することで、AI 動画生成ツールへのサウンドインテグレーションの将来について、貴重な洞察とインスピレーションを得ることができます。

テキストからビデオへ:AIスタジオとSora AI、あなたの選択は?

Sora AIは、リアルなテキストからビデオへのコンテンツを生成する独自の機能を提供することで、人工知能の分野で大きな飛躍を遂げる態勢を整えています。現在の音声不足は、他の AI モデルとの比較や議論につながっていますが、その大きな可能性を認識することは重要です。 テキストからビデオへ アイ。よりリアルに話すことができ、人間のように聞こえ、完璧な品質でリップシンクできるAIアバターが必要な場合は、AI Studiosが最適な代替手段です。それぞれのテクノロジーとプラットフォームの限界と強みを認識していれば、思い通りの動画を作成できます。

なぜSora AIには音が付いていないのですか?
Liz Ryu

Data Specialist

I meticulously ensure data quality and organization, contributing to the foundation of AI models. I nurture the data ecosystem, preserving and securing linguistic data. My role extends beyond data to enhancing AI models by providing linguistic insights and innovative ideas, particularly in Chinese and Japanese languages.

なぜSora AIには音が付いていないのですか?なぜSora AIには音が付いていないのですか?