OpenAIが2月15日に動画生成AI「Sora」を発表して世界中が大騒ぎになりましたよね(ニュース記事)。生成可能な動画は最長で60秒間。人物や空間の一貫性を保持しながら、物理法則を伴って動いているように見える。これまで動画生成AIでは不可能とされていたことがすべてできていて、常識がひっくり返されました。
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
突如レベルの違う動画生成AIが登場した
かつ、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」というものをぶちあげてきました。「我々の研究結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する実現可能な方法であることを示している」と。これはなかなか強烈というか、普遍的な世界シミュレーターとは一体どういうものかが焦点になりました。
「LLM(大規模言語モデル)は人間の脳の処理に近いため、LLMを拡張していけば人間の知性を翻案できる」という仮説があるように、この動画によって世界の振る舞い自体を組み込んでいけば世界全体を再現できるという話です。OpenAIは技術レポートを公開したのですが、手の内をすべて明かしたものではありません。そのため、業界関係者や研究者が一斉に、どうやって実現したかも含め、いろんなことを言い出したというわけですね。
さっそく、生成動画AIサービスのPika、Runway ML(Gen2)、Stable Video Diffusionなどと比較する人も出てきました。Soraで入力されたものとまったく同じプロンプトを入力するものの、他のサービスではデフォルトでは4秒程度しか作れないところに限界があります。一応似たような画像は出ているんですが、決定的な違いとしてやっぱり物理法則が入っていない。ただ画像を連続的に出しているだけ。まず、その違いが鮮明になります。
SORA vs Pika vs RunwayML vs Stable Video.
— Gabor Cselle (@gabor) February 16, 2024
I tried the same prompt as in one of @OpenAI's examples on the other GenAI video models. All of them produce much shorter videos around 5 seconds.
IMHO SORA's doing prompt enrichment just like Dall-E, will try that next. pic.twitter.com/dZZrra8DHd
Stable Diffusionの動画生成機能「AnimateDiff」も、様々な研究で拡張が続けられていますが、こちらもやはり4秒程度が限界です。特に、動きが入ったアニメーションは原理的に一貫性を保てず崩壊しやすかったんですよね。そのため、参照用のビデオを使ってImage-to-Image(i2i)の技法を使うことで一貫性を保つのが、今は一般的なやり方になっています。しかし、それだと準備する動画に品質が依存してしまうことになります。
一方、Soraは一貫性のある3D空間が構築されているように見えます。細かいところはおかしい部分もあるのですが、一見分からなかったりする。現時点でこれができるのは驚きです。
この連載の記事
-
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています - この連載の一覧へ