OpenAIは米国時間2月15日、テキストから動画を生成できる人工知能(AI)モデル「Sora」を発表した。ユーザーのテキストプロンプトに基づき、現実的で想像力に富んだ最長1分間の動画を生成できるという。
提供:OpenAI/Screenshot by Lisa Lacy/CNET
同社は、AIモデルが物理的な世界での動きを理解し、シミュレーションできるように訓練することで、現実世界のやり取りを必要とする問題解決に役立てたいと説明している。
AIがもたらす害やリスクを評価するために編成された「レッドチーム」のメンバーや、ビジュアルアーティスト、デザイナー、映画制作者などに、同日よりSoraへのアクセスを提供し、今後の改善に向けてフィードバックを得る。
Soraは複数のキャラクター、特定の種類のモーション、対象物や背景の詳細などを含む、複雑なシーンを生成できる。また、ユーザーのプロンプトを理解するだけでなく、それらのものが物理世界でどのように存在するかも理解できるという。
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
一方、同社は現行のモデルに弱点があることも認めている。複雑なシーンの物理を正確にシミュレーションできなかったり、原因と結果を理解できないことがあるという。例えば、人がクッキーをかじった後、その跡がクッキーに反映されない場合などがある。
ほかにも、左右を混同するなど、プロンプトの空間に関する説明や、カメラの動きをたどるといった経時的な出来事の説明を、誤って解釈することがあるという。
同社は、誤解を招くコンテンツを特定できるように、Soraによって生成された動画を判別するためのツールも開発中だ。この生成モデルをOpenAI製品に導入する際は、動画の来歴情報が分かるC2PAメタデータを実装する計画だ。
Soraが生成した多数の動画サンプルが、そのプロンプトとともに公開されている。ネオンの光がきらめく夜の東京を闊歩するスタイリッシュな女性や、雪原を歩んでくる巨大なマンモスの毛が風になびく様子などを見ることができる。
1月にはGoogleが、テキストプロンプトや画像から非常にリアルな動画を生成するAIモデル「Lumiere」を発表していた。