OpenAIが新しい動画生成モデル「Sora」を発表し、合わせて技術レポートも公開しました。
Soraはテキストから最長1分の動画を生成できるモデル。静止画像から動画の生成や、動画の補完も可能です。
作例を見る限り、現在公開されているどの動画生成モデルよりも、品質や一貫性において圧倒的に優れています。
技術レポートによると、Stable Diffusionなどの画像生成や他の動画生成モデル同様、SoraはTransformerを使った拡散モデルで動画を生成します。
従来の動画生成より広範な視覚汎用モデルであり、様々な課題を解決していると説明しています。
高い一貫性と品質
Soraの生成した動画は圧倒的な一貫性と品質を持っています。従来の動画生成では1分もの尺の生成は難しく、また無理に長い生成をすれば形状や構図などが破綻していました。
公式のサンプルから幾つか紹介します。
マンモスのサンプルでは、雪煙の向こうから現れるもう一頭のマンモスを含め、破綻なく最後まで描かれています。
こうした表現は従来の動画生成では非常に破綻しやすかったものです。
3DCG風のキャラクターのサンプル。ロウソクの融けていく様子や動き続けるキャラクターの形状や表情も、最後まで一貫性が保たれています。
コーヒーの海に浮かぶ海賊船は、素晴らしい流体シミュレーションの結果のように見えます。
喫水線や光の質感は不自然ですが、帆や船の形状に決定的な破綻はありません。
山道を走り続ける白いSUVは、車も背景も一貫した表現を保っています。
砂煙や障害物に多少不自然さはありますが、ドローンで撮影したかのような構図も安定しています。
飼い主を起こす猫。女性の腕と猫の腕がありえない変化をする以外、どこも一貫して破綻なく表現されています。
テキスト指示への高い忠実性
GPTやDALL Eの成果を組み込んだことで、生成を指示するテキストへの忠実性が高い点も特徴的です。たとえば上のサンプルを生成した指示は次のような内容です。
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
(スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。 彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。 彼女はサングラスと赤い口紅をつけています。 彼女は自信を持って何気なく歩いています。 通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。 多くの歩行者が歩き回っています。)
この指示に確かに適合する動画が生成されています。これほど細かい指示への忠実性はDALLE 3の場合と同じく、ChatGPTのようなLLMからの生成でも効果的です。
公開時期は不明
現在、SoraはOpenAIの内部チームが安全性やポリシー適合について評価しているほか、フィードバックを得るため一部の専門的なクリエイターに提供中です。
一般公開の時期については言及がなく、今回の公開はAIによってどんなことが可能になるのかを広く感じてもらうためだとしています。
Soraは「ワールドシミュレーター」か?
ここからはゲーム開発者であり、画像生成が広まって以降「世界を描ける汎用の生成AIレンダラ」をずっと追いかけてる筆者の立場から感想を少し。
従来の動画生成モデルと比較して、Soraは確かに品質が飛躍的に伸びています。いま一般に利用可能なRunwayやPikaなどの商用サービスや、SVDやAnimateDiffなどのローカル実行可能なモデルは、Soraによってひどく遅れたものになるかもしれません。少なくとも作例の一貫性や多様性、連続性は、他の作例を圧倒してます。
ソーシャルメディアの反応はこの手のデモ公開時に共通の傾向で、「すげえ」という驚きや、「仕事なくなる日が早まるな」という競合するプロの声。
そして「Soraは世界エンジンだ!」といったSF的なものも。私個人の感想はどれも入り混じってますが、毎年生成AIの汎用レンダラとしての未来について記事を書いたり、動画生成をしばしば試したりしている分、SF的な飛躍が気になります。
たとえば技術レポートのタイトルは「ワールドシミュレーターとしてのビデオ生成モデル」ですし、そうしたメッセージが幾つも込められているように感じます。
そうしたビジョンを受けて、Soraが物理シミュレーションなどを現実世界を取り扱えるモデルだとみなすポストもあります。
しかし、少なくとも発表されたSoraには、そうした物理エンジンとしての正しさが備わっていないことを、OpenAI自身も次のように述べています。
The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.
The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.
(現行モデルには弱点があります。 複雑なシーンの物理を正確にシミュレートするのに難がある可能性があり、原因と結果の特定のインスタンスを理解できない場合があります。 たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。
また、モデルは、プロンプトの空間的な詳細について取り違える可能性があります (たとえば、左右を混同するなど)。また特定の軌跡でカメラを動かすなど、時間の経過を伴うできごとの細かな記述も苦手とする可能性があります。)
概要で公開されたサンプルでも、ハイイロオオカミの子供が遊ぶものや、バスケットボールのもので物理的な破綻は顕著で、細かく見れば他の動画にも多数見つかります。
なんらかの一貫したモデルを持つならば起きないはずの小さな破綻は、これが表現という最終出力を再構成して生み出された動画であることを示しています。
確かにSoraは、一貫性と連続性で飛躍的に優れています。フレーム間での被写体の一貫性が失われないよう、同時にある程度先までの表現を算出しているらしい説明もあります。
ただそこにあるのは、やはり動画という表現の生成であって、背後により大きなモデルを構築しているようには見えません。従来の3D CG動画には必要であった様々な演算をSoraが実現しているように見える点も、画像生成について事前準備のコストを挙げた話と同様、表現に直結したエンジン共通の性質です。
もちろんこうした動画生成の発展は、私が世界を描けるエンジンに夢見た流れの途中そのものなんですが、今のSoraからはそこまでの飛躍的な進歩は見えません。
良くできたサンプルが話題を集めたあと、実際に触れるコードが公開され、扱えない表現が大量にあることが分かると、SFめいた壮大な話が減っていくという、これまでもAIの成果で繰り返してきた反応と同じ道を辿りそうです。
それでもSoraは、汎用の生成AIレンダラに至る大きなマイルストーンだと感じています。学習量など重要な情報は出ていませんが、競合サービスやオープンなモデルが追いつき、また更なる飛躍が生まれるのが楽しみです。
懸念と実用
もっと実際的に気になるのは、SoraがChatGPTに搭載され、皆がカジュアルに動画を生成し始める時期です。
フェイク動画の悪用といった問題や、一部の仕事が消えてく影響などもありますが、大量のフィードバックがOpenAIに集まり、それを強化に回し続けられるのは本当に大きなアドバンテージです。
動画生成でもOpenAIの寡占が進んで、他のサービスやオープン勢がゆっくり死んでいくのは恐ろしいことです。
私個人の場合、実用ではゲーム制作への利用にもっとも興味があります。企画段階では今すぐにでも使えそうですし、業務として手伝っているサービスでも動画対応設計をしてるところなので、Soraが組み込めるなら筆頭になりそうです。
エフェクト素材などアセットの制作には、生成した動画を加工して使えるかもしれません。画像から動画の生成もできるので、画像生成と合わせてちょっと動きのある背景や2D表現も賄えるかもしれません。
3D生成への応用も大きく期待しています。技術レポートにあるように、画像から動画が生成できるということは、被写体の立体的な推定が可能ということです。OpenAIから突然驚異的な性能の3D生成モデルが公開される日が来るかもしれません。
Soraの動向がわかるまで、手元で進めてきた動画生成のテストはひとまず止めることになりそうです。とにかく一般公開を待ち遠しく思っています。