動画生成AIの常識を破壊した OpenAI「Sora」の衝撃

2024年03月04日 07時00分更新

文● 新清士　編集●ASCII

OpenAIが公開した動画より。人物や建物の一貫性が保たれている

　OpenAIが2月15日に動画生成AI「Sora」を発表して世界中が大騒ぎになりましたよね（ニュース記事）。生成可能な動画は最長で60秒間。人物や空間の一貫性を保持しながら、物理法則を伴って動いているように見える。これまで動画生成AIでは不可能とされていたことがすべてできていて、常識がひっくり返されました。

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

突如レベルの違う動画生成AIが登場した

Soraの技術レポート。トップの見出しに「世界シミュレーターとしてのビデオ生成モデル」と宣言している

　かつ、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」というものをぶちあげてきました。「我々の研究結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する実現可能な方法であることを示している」と。これはなかなか強烈というか、普遍的な世界シミュレーターとは一体どういうものかが焦点になりました。

　「LLM（大規模言語モデル）は人間の脳の処理に近いため、LLMを拡張していけば人間の知性を翻案できる」という仮説があるように、この動画によって世界の振る舞い自体を組み込んでいけば世界全体を再現できるという話です。OpenAIは技術レポートを公開したのですが、手の内をすべて明かしたものではありません。そのため、業界関係者や研究者が一斉に、どうやって実現したかも含め、いろんなことを言い出したというわけですね。

　さっそく、生成動画AIサービスのPika、Runway ML（Gen2）、Stable Video Diffusionなどと比較する人も出てきました。Soraで入力されたものとまったく同じプロンプトを入力するものの、他のサービスではデフォルトでは4秒程度しか作れないところに限界があります。一応似たような画像は出ているんですが、決定的な違いとしてやっぱり物理法則が入っていない。ただ画像を連続的に出しているだけ。まず、その違いが鮮明になります。

SORA vs Pika vs RunwayML vs Stable Video.

I tried the same prompt as in one of @OpenAI's examples on the other GenAI video models. All of them produce much shorter videos around 5 seconds.

IMHO SORA's doing prompt enrichment just like Dall-E, will try that next. pic.twitter.com/dZZrra8DHd
— Gabor Cselle (@gabor) February 16, 2024

　Stable Diffusionの動画生成機能「AnimateDiff」も、様々な研究で拡張が続けられていますが、こちらもやはり4秒程度が限界です。特に、動きが入ったアニメーションは原理的に一貫性を保てず崩壊しやすかったんですよね。そのため、参照用のビデオを使ってImage-to-Image（i2i）の技法を使うことで一貫性を保つのが、今は一般的なやり方になっています。しかし、それだと準備する動画に品質が依存してしまうことになります。

OpenAIの公開動画より。一体どうやったら、こうした動画が生成できるのか想像もつかない、車窓の風景の動画。東京の町並み、ガラスへの映り込みなど自然に見える

　一方、Soraは一貫性のある3D空間が構築されているように見えます。細かいところはおかしい部分もあるのですが、一見分からなかったりする。現時点でこれができるのは驚きです。

前へ 1 2 3 4 5 次へ

ツイートする

カテゴリートップへ

動画生成AIの常識を破壊した OpenAI「Sora」の衝撃

突如レベルの違う動画生成AIが登場した

この連載の記事

この記事の編集者は以下の記事をオススメしています

AI 日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」

AI 画像生成AI「Stable Diffusion」使い倒すならコレ！ 「ComfyUI」基本の使い方

AI “生成AIゲーム”急増の兆し すでに150タイトル以上が登録

AI 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」

AI AI動画に効果音つけます 「Pika」新機能がすごい

ビジネス PHEV、環境負荷で予想外／「Sora」は映像制作をどう変えるか？

AI “AI生成映画”ついに映画祭に登場 OpenAI「Sora」使用

AI AI版Netflix? AIコンテンツだけの動画配信サイト登場

AI 革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた

AIオススメ記事

ピックアップ

AI
日本発の画像生成AIサービスがすごい　無料アップスケーラー「カクダイV1」

AI
画像生成AI「Stable Diffusion」使い倒すならコレ！　「ComfyUI」基本の使い方

AI
“生成AIゲーム”急増の兆し　すでに150タイトル以上が登録

AI
画像生成AI、安いPCでも高速に　衝撃の「Stable Diffusion WebUI Forge」

AI
AI動画に効果音つけます　「Pika」新機能がすごい

ビジネス
PHEV、環境負荷で予想外／「Sora」は映像制作をどう変えるか？

AI
“AI生成映画”ついに映画祭に登場　OpenAI「Sora」使用

AI
AI版Netflix?　AIコンテンツだけの動画配信サイト登場

AI
革命レベルの動画生成AI「Kling」　ついに「Sora」対抗が出てきた