動画生成AIにまつわる最新の話題をお届けしている、この短期連載。今回は、(おそらく)世界中のAI動画クリエイターたちが使ってみたいと考えているOpenAIのSoraによる映像制作が、そんなに簡単なものではないという裏話と、複数の人気動画生成AIに同じプロンプトで動画を生成させて比較してみることで、読者の皆さんが自分でも試してみようと思い立ったときの参考にしていただこうという趣向です。
完成版の300倍もの動画生成を要したSoraの「Air Head」作例
今年の2月半ばにOpenAIが発表したSoraは、比較的シンプルなプロンプトから最長1分のリアルな映像を生成できることから大きな注目を集めました。しかし、あまりのリアルさからフェイク動画なども作りやすくなってしまうため、OpenAIはその対策ができるまで一般ユーザーに開放するつもりはないとしています。
その一方で、報道によればOpenAIはハリウッドで商業映画制作にSoraを利用してもらうための協議を行なっているとされたり、つい先日には、Adobeが、年内にビデオ編集アプリのPremier Proの拡張機能として組み込むという発表を行ないました。
こうした動きと並行して、OpenAIは一部の映像クリエイターにSoraを試用してもらい、その作品を積極的に公開しています。中でも僕が注目したのは、「パンクロック・ピクサー」の異名を持つshy kidsというカナダの映像プロダクションが制作した「Air Head」です。これは頭が黄色い風船で出来ている主人公が、自転車に乗ったり、サボテンだらけの通路を歩いたり、風に飛ばされた頭を胴体が追いかけるといった内容の、アイデアに満ちていてAI生成動画の可能性を示す1分21秒の小品でした。
ところが、4月半ばにfxguideというオンラインメディアがshy kidsを取材して、Soraの実際の使用感を語った”Actually Using SORA”という記事を掲載したのです。
それによると、Soraも他の動画生成AIと同じく、どのような映像が生成されるかはスロットマシン(昨今の日本風にいえば、ガチャ)のようで、たとえば黄色い風船を指定しても赤くなったり、風船ではない頭が生えていたり、のっぺらぼうのはずの風船に顔のパーツの凹凸が付いたりと数多くのボツ映像が作られたそうです。そのため、ともかく生成数を増やして、少しでも使える箇所があれば、その部分を編集して使うことを心がけたそうです。
結果として、実際にSoraが生成した元動画は、完成版の300倍、つまり1分21秒×300=405分にもなったといいます。7時間近い分量です。Soraは、3~20秒の動画生成に10~20分ほどかかるため、まず、それだけの元動画を生成するだけでも膨大な時間を費やしたことになります。
さらに、カット自体は良くても風船の色が違っているような場合には、Adobe After Effectsなどを使ってコマごとに後処理を行なったこともあり、編集作業にもそれなりの時間がかかったのでした。
“Air Head”では、Soraの生成結果を意図に沿った映像に仕上げるために、かなりの後処理が加えられている。たとえば、このシーンでは、Soraが生成した赤い風船や本来はないはずの主人公の頭を、後処理によって処理することで、他のシーンとの整合性をとる必要があった。
実は、僕自身は、そうした事実を知っても、さほど驚きませんでした。また、そのことによってSoraの価値が貶められたとも考えていません。なぜなら、通常の実写作品でも編集時にボツになるカットはたくさんありますし、AIによる動画生成もChatGPTとの会話と同様に、答え一発で満足するのではなく、複数回のやり取りを経て洗練させていくものだからです。
実際に、自分のAI生成動画作品においても、編集前の素材はかなりの分量になり、ストレージの空き容量が急速になくなる状況に直面しています。今後、いかにSoraが進化しても、1つのプロンプトからクリエーターの意図通りの映像作品がポンと自動生成されるようなことはなく、人間による編集作業はこれまでと同様に重要であり続けるでしょう。なぜなら、作者のみが意思と意図を持ち、映像をどのようにまとめるべきかを知っているからです。
ひと口に動画生成AIといっても個性がある
というところで、一般公開されている主要な動画生成AIサービスによる生成動画を比較していきたいと思います。ここでは、読者の皆さんも試しやすいように無料プランのあるRunwayML、Pika、PixVerse、Haiper、Noisee、Leonardoを選びましたが、サービス自体は実際の動画クリエーターにも利用されている定番や最新のものです。
前回の記事でも触れ、上のAir Headの例からもわかるように、AI生成による映像制作では、素材となる元動画を数多く生成する必要があります。そのため、RunwayMLの有料プランユーザーである僕も、他の無料サービスを併用できて助かっているのです。
ちなみに、動画生成AIサービスには、この他にもPikaと前後して登場したKaiberなどのサービスもありますが、有料プランのみであったり、試用期間中は無料(要キャンセル)というものは割愛しました。
また、プロンプトからの動画生成におけるそれぞれの特徴は以下の通りですが、比較動画では一部のサービスのみで提供されているカメラコントロールなどは利用せず、プロンプトのみでの生成によって基本的な生成機能の差がわかるようにしています。
無料プランでは追加なしの125クレジット(プロンプトによる動画生成では25秒分)のみとなりますが、高い評価を得ているサービスです。パン、ティルト、ズームなどのカメラコントロールに加えて、人物や雲、水面などを領域指定して、それぞれに個別の動きを与えるモーションブラシ機能を備えるなど、機能面でも最も進んでいます。
・Pika
シンプルなインタフェースで、Anime、3Dなどの7種のスタイル選択もできます。どちらかといえば、フォトリアルな動画よりはアニメ、3DCG向きのサービスといえ、パン、ティルト、ズームなどのカメラコントロールも可能です。無料プランでは最初に250クレジット(1回の動画生成につき10クレジット消費)が与えられ、それを使い切ると毎日30クレジットまで追加されます。
以前は完全無料で、かつ、生成数無制限のベータ版として運用されていましたが、有料プランが追加された今でも、毎日200クレジット(20回生成)分まで無料で利用可能です。Realistic、Animeなど4種のスタイル選択をでき、1回分のみのクレジット消費で、入力したプロンプトをAIがアレンジして2つの動画を生成してくれるモードがバリエーションの検討に適しています。
原稿執筆の時点ではベータ版での提供ですが、クオリティの高い動画を完全無料かつ回数無制限で生成できます(生成頻度やサーバ負荷によっては、生成開始を待たされることあり)。Old FilmやWater Colorのようなスタイルを選択できますが、カメラワークなどのためのUIはなく、基本的にはプロンプトのみで動きをつけていきます。
Discordからの利用となるため、使用法にやや癖がありますが、楽曲生成AIやYouTubeのURLからミュージックビデオを自動生成する機能で注目されたサービスです。動画生成はGenerate Clipコマンドで行い、かなりプロンプトに忠実な生成を行う印象があります。原稿執筆に時点では完全無料で回数無制限の生成ができるサービスです。
動画生成の方法が独特で、サービス内でプロンプトから生成した静止画イメージに対してImage2Motion機能を適用します。その際に指定できるのは動きの強さのみで、動画生成処理に対してプロンプトを与えることはできません。無料プランでは、毎日150クレジット(1回の動画生成につき25クレジット消費+元になる静止画の生成に8クレジット必要)まで追加されます。
なお、RunwayMLやPikaの有料プランでは動画解像度のアップスケールも可能で、生成された動画の続きを段階的に延ばすこともできますが、フリープランや他のサービスでは最大でHD解像度で、動画の秒数も1つあたり4秒(Pikaは3秒)までとなっています。
しかし、先の“Air Head”の制作においても、Soraの生成解像度を480pに設定(Sora自体の最大解像度は720p=HDで、1080p=フルHDも計画中)することで生成にかかる時間を短縮し、後からTopaz Video AIアプリでアップスケールしているので、その点ではどのサービスも遜色はありません。
▲現状の動画生成AIサービスでは、解像度やフレームレートにも結構なバラツキがあるが、アップスケールして利用することで、ある程度、その差を吸収できる
人物、クルマ、情景の作例
では、それぞれの作例を見ていきましょう。ここでは、無邪気な少女、同じく少年、ドリフト走行するスポーツカー、暗い森の中を歩く人影という3つのテーマで生成させてみました。比較しやすいように複数の動画を1画面に収め、それぞれ2回ずつ再生を繰り返す構成にしましたが、Pikaの生成結果は3秒なので、他の4秒のものに合わせてスピードを調整しています。
まず、無邪気な少女ですが、プロンプトは以下のようなものです。
A close-up and zoom out shot of an innocent girl with rainbow colored short hair blinks her blue eyes and has a puzzled look on her face.
クロースアップやズームアウトの指定、虹色の髪、目の瞬き、困惑した表情といった要素を盛り込んでいます。
▲動画生成AI比較:Girl編
ここで、RunwayMLはリアルですが少女ではなくハイティーンの女性が描かれ、広角気味で、髪の毛に指定した虹色が襟のボア部分に反映されてしまいました。他のサービスでは、しっかり髪の毛が虹色の少女が生成されていますが、困惑した表情はPixVerseによく出ており、わずかながらズームアウトの表現もPixVerseのみに反映されました。また、特にスタイルの指定はしていないにもかかわらず、Pikaにはやはり3DCG的な動画を生成する傾向が見て取れます。しかし、瞬きについては、どれも再現できていません。
この例では、PixVerseが最もプロンプトによる指示に近い動画を生成したといえるでしょう。
次の無邪気な少年のプロンプトも基本的には同じですが、girlをboyに変えています。
A close-up and zoom out shot of an innocent boy with rainbow colored short hair blinks her blue eyes and has a puzzled look on her face.
盛り込まれた要素も少女の場合と同様です。
▲動画生成AI比較:Boy編
ここでもRunwayMLは、プロンプトを独自解釈して虹色を背景に配して、幼児に近い少年を生成しています。他は、まさに先の少女を少年に置き換えたような表現となっており、PikaとLeonardoは瞬きも再現してくれました。Haiperの構図もクリエイティブで良いですが、この場合も、プロンプトによる指示に最も近い動画は(瞬きを除けば)PixVerseかと思います。
続く、ドリフトするスポーツカーでは、色は指定せずにイタリアのスポーツカーとしてみました。
An Italian sport car drifting through a hairpin curve of a racing circuit. Black skid marks remain on the road surface, and smoke is faintly rising from the tires.
どのような車種を選定してくるか、また、ヘアピンカーブやコース上のスキッドマーク(タイヤ痕)、タイヤから立ち上る白煙の再現性を見てみます。
▲動画生成AI比較:Drift編
すると、どれもそれなりにスポーツカー的なクルマを生成してはいますが、ひと目でイタリア的と思えるのは、Pikaの赤いフェラーリっぽい車両(ただし、やはり3DCG的なテイスト)と、PixVerseによる赤のブガッティらしき車両でしょう。しかし、RunwayMLの黒いランチア的なレースカーもマニア的にはポイントが高そうです。
最もヘアピンカーブ的なコースになっているのもRunwayMLであり、スキッドマークについては、平滑なアスファルト状態のPikaと黒い筋が多すぎるHaiper以外は、まずまず再現されています。
動きについては、PikaとLeonardoはドリフトなしの安定走行に見え、タイヤからの白煙もありません。この点では、RunwayMLとNoiseeが、(派手さはないものの)プロンプトに沿った生成結果になっているといえるでしょう。
暗い森の中を歩く人影のプロンプトは、以下のようにしました。
The back view of a man walking along a winding narrow path in a dark forest toward a light in the distance.
曲がりくねった道や、遠くに見える灯りをどの程度再現できるかがポイントです。
▲動画生成AI比較:Forest編
この生成では、RunwayMLとPikaの人物の歩き方はやや不安定な印象があり、リアリティの点からはPixVerseの描写が優れています(特に、木漏れ日が頭を照らすところなど)。どれも、道は曲がりくねったというよりも緩やかなカーブを描く程度ですが、一応は再現しましたという感じでしょうか。他の作例でも同様ですが、NoiseeとLeonardoの生成傾向は似ているので、学習モデルが同一、または近い可能性もありそうです。
というように、どの動画生成AIサービスもそれなりのクオリティを持っているものの、題材による得手不得手やプロンプトの解釈に違いがあることがわかります。そのため、複数を試して適していると思うものを組み合わせて使うことが、今は最善の策といえるでしょう。
無理を承知でThe Midnight Odysseyの演奏シーンにもチャレンジ
さらに、一般には複数の人物(特に4、5人以上)を盛り込んだ動画をプロンプトからAI生成するのは難しい(人数を正確に再現できる確率が低い)のですが、せっかくなのでThe Midnight Odysseyのリハーサル風景の動画生成にも挑戦してみました。ただし、この場合にはあらかじめMidjourney AIで静止画として生成、調整したイメージを用意し、それを以下のようなプロンプトで動かしています。
A British rock band with five members practices in a dimly lit studio filled with musical equipment. Jake Harper, the lead vocalist and guitarist, passionately performs at the center. Beside him, the only female member, Lily Ford, plays the keyboard with expert finesse. Elliot Smith, the lead guitarist, stands slightly behind, playing complex and melodious guitar solos. On the other side, Maia Chang, the innovative bassist, creates unique grooves with her bass guitar. Behind them, Liam O'Connor, the drummer, lays down powerful and technical rhythms. The atmosphere is electric with creativity and teamwork.
▲Midjourney AIで生成・調整したThe Midnight Odysseyのリハーサル風景。このイメージを、各動画生成AIサービスを使って動かしてみた
メンバーの名前は人数の念を押す意味で入れているだけで、それ自体に有効性はありません。静止画のほうは、Midjourney AIでcref(キャラクターリファレンス)を複数回適用するなどして、それらしいメンバーを揃えています。
ちなみに、Noiseeでは参照イメージはあくまでもスタイルの引用に留まるために、生成結果も元の静止画とは異なる構図の4人組となっており、Leonardoでは同サービス内で生成した静止画を利用する必要から、顔も異なる2人の演奏風景となりました。
▲動画生成AI比較:The Midnight Odyssey編
遠目には、どれもそれっぽい動きをしていますが、現在の生成AIは、静止画、動画を問わず小さな顔の描画が不得意なので、特に奥の2人の顔はどれも崩れ、PikaとHaiperでは消えたりボケたり歪んだりしてしまいました。Noiseeでもすべての顔がかなり崩れていますが、Leonardoが(The Midnight Odysseyには見えないものの)なかなか健闘しているのは、同じサービス内で生成した静止画を動かすうえで何らかの情報が受け渡される仕組みがあるのかもしれません。
もし、これらの動画のどれかを個人的に利用するならば、RunwayMLのものを小さいサイズで(たとえば、リビングのテレビ画面内の画像として)使うか、カメラワークが良い感じのHaiperの最初の1秒分だけをスローモーション補完するなどして使うようにするでしょう。
動画生成AIの全体傾向としては、単体の動画だけでなく、リップシンク(RunwayML、Pika)や効果音(Pika)も生成できるようになってきたり、複数の動画を構成して作品に仕上げるためのストーリーボード機能を備えたMorph Studioや、それに加えて一貫性のあるキャラクター生成などまでカバーするLTX Studioのようなサービスも登場してきています(後2者はアクセス登録を受付中の状態)。
いずれにせよ、現在も急速に進化を続けているこの分野のサービスは、互いに刺激しあい、足りない機能を補いながら、最終的にAI生成動画スタジオ的なトータルサービスへと発展していくことになりそうです。
次回は、具体的なテーマに基づく動画生成の手法をハンズオン形式でまとめていきます。