画像系生成AIは静止画から動画へと広がりを見せていますが、動画への利用についてはさまざまな技術、サービスが乱立しており、OpenAIのSoraなど期待を煽る技術も注目されていますが、今はどれを使ったらいいのか悩む人も多いと思います。生成AIを利用したプロモーションビデオ制作に知見のあるテクノロジーライターである大谷和利さんに、実例を用いてその使い方を解説してもらいました。
はじめまして、の読者の方もおられるかと思いますが、テクノロジーライターの大谷和利です。テクノエッジ編集部シニアエディターの松尾公也さんは、かつて彼が日本版MacUser誌の編集長をされていた頃からの知り合いで、ここしばらくは仕事をご一緒する機会がなかったのですが、記事やFaceBookの投稿などを通じて近況を知る機会があり、いつも変わらぬ探究心で面白いことをされているなぁと感じています。
テクノロジーに興味のある人ならば、昨今の生成AIの動向から目を離すことができないわけですが、ChatGPTやStable Diffusion、Midjourneyが登場したあたりから、僕もそれらに関する記事執筆のかたわら画像生成などに活用し始め、Suno AI以前に話題となった音楽生成AIのSongRが出たタイミングで、いくつかの楽曲を作って電子書籍出版プラットフォームであるRomancerでまとめたりもしていました。
▲On the Edge of Perception(知覚の淵にて):リアルな歌付き楽曲生成AIの先駆けとなったSongRが登場したときに、ChatGPTによる歌詞を利用して作ってみたミニアルバム
さらに、Runway MLやPika Labsの台頭によって、比較的手軽にAIによる動画生成も行えるようになってからは、出来上がった楽曲を元にPV的なものの制作にもチャレンジし、インスタントカメラ、チェキの非公式ファンメイドCMビデオ「チェキ kirari」や、母校の高校の同期会への参加を促す「またここで笑おう」などを公開しています。
▲いわゆるファンメイドコンテンツとして、インスタントカメラのチェキのアニメスタイルのCMを想定して制作した非公式ミュージックビデオ
▲僕がFaceBook上でいくつかの生成AIビデオを公開しているのを知った高校時代の同級生からの依頼で制作した、同期会への参加を促すための映像
そんな形で個人の活動もしていたので、松尾さんが架空バンド「The Midnight Odyssey」の記事を執筆され、その後に山崎潤一郎さんの協力を得てマスタリングしたアルバムをYouTube MusicやApple Musicで公開したことには大いに刺激を受けました。
そして、これはバンドのPV(プロモーションビデオ)も必要だと勝手にパイロット版を作って松尾さんにお見せしたところ、調整を加えた完成版がめでたく公式PVとして採用されたのです。以下が、そのPVになりますので、読み進む前にぜひご覧ください。
▲The Midnight Odysseyという架空バンドのプロモーションのために、アルバム内のCrimson Skiesという曲を使って制作したPV
今回は、このPVがどのように作られたかを解説し、続く回で動画生成AIの最新動向や、具体的なハンズオンの説明をしていくことにします。
バンド紹介的な側面を持たせたい
松尾さんの設定によれば、この「The Odyssey of Echoes」というコンセプトアルバムは、The Midnight Odysseyに新メンバーのリリー・フォードが加入後初めてのスタジオアルバムということです。であれば、PVも単に曲の内容をビジュアライズするのではなく、個々のメンバーの紹介にもなる構成にしようと思いました。
バンドメンバーの写真イメージは、すでに松尾さんが生成したものがあったので、これがベースとなります。しかし、左端のマイア・チャンの顔が欠けていたり、メンバー同士が重なっているので、一人ずつ独立させる必要がありました。また、動画でアップにしたときにフラットな印象になりすぎないように、もう少しディテールを作り込むことも必要でした。
▲オリジナルのメンバー画像
そこで、まず欠けているマイア・チャンの顔をAbobe Fireflyの生成塗りつぶしなどを使って復元(?)してから、完全体の集合写真をAI利用の画像エンハンサーとして定評のあるMagnificにかけ、よりリアルな拡張版の宣材写真が完成しました。
▲松尾さんが用意したバンドメンバーの集合イメージをAbobe FireflyやMagnificを使ってエンハンスし、より動画のベースにしやすい宣材写真に加工した
次に、一人ずつ独立したイメージ作成の作業に移り、グラフィックツールで大まかに分割したのちに、やはり生成塗りつぶしなどを利用して足りない部分を補っていきます。しかし、さすがにFireflyの処理にも限界があり、思うように補完できない服のディテールなどが出てきました。
そこで、改めてロックミュージシャンのイメージをいくつかMidjourneyで生成し、ロッカーが着ているであろう服のみをメンバーにコピー&ペーストして調整する手法も併用しています。Midjourneyを利用したのは、自分が慣れていることも理由の1つですが、特にリアリティのあるフォトイメージ生成では今もトップレベルのサービスだと感じているからです。
一貫性のあるキャラクターを生成する
さらに女性メンバーのリリー・フォードについては胴体の大半が隠れているため、アップのポートレート動画用には、少し異なるポーズのイメージを新たに生成しました。
このような場合に問題となるのはキャラクターの一貫性ですが、Midjourney AIは最新のVer.6でcref(キャラクターリファレンス)パラメーターが利用できるようになったので、作業がかなり楽になりました。
Midjourneyには、これまでもイメージの画風やスタイルにある程度の一貫性を持たせるsref(スタイルリファレンス)というパラメーターがありましたが、そのキャラクター版といえるものがcrefです。
これは、キャラクター生成を行うプロンプトの中で、「—cref URL」(URLは、一貫性を持たせたいキャラクターのイメージへのリンク)を指定することで、近いイメージに仕上げてくれる機能で、100%完璧というわけではないものの、かなり近似性の高いキャラクターを生成できます(ただし、もちろん著作権で保護されたキャラクターの生成はNGです)。
また、あらかじめ/prefer option setコマンドを使用して、続くoptionの値に任意の英語のキャラクター名、そしてvalueとしてキャラクターのイメージへのリンクを設定しておくと、「—cref キャラクター名」の形式でも利用できるようになります。
実際には、リリーの顔のアップの構図では服はほとんど見えないのですが、少し斜めからの顔のカットによってPV内で他のメンバーとの差別化が図られ、また将来的に別の動画などで利用することもできるので、よしとしました。
▲集合写真から切り出して足りない部分を補ったり、別ポーズで新たに生成するなどして揃えたメンバーそれぞれの写真イメージ
Crimson Skiesの静止画素材の生成
PVの元になる楽曲としてはCrimson Skiesを選びました。理由は単純で、アルバム内のボーカル付きの曲の中で最も短く、具体的なビジュアルも思い浮かべやすかったためです。最初の試みでもあるので、なるべく動画にしやすそうな曲を選んだところもあります。
基本的な場面構成としては、アメリカの荒野を思わせる様々な場所の夕景を中心に、The Midnight Odysseyのメンバーのポートレートを挟んでいくことにしました。すでに個々のメンバーのポートレートはできているので、夕景の静止画の生成に移ります。
生成に使用したのはやはりMidjourneyです。Midjourneyは現在有償プランのみですが、生成される画像の品質の高さもさることながら、1つのプロンプトからのバリエーションを作りやすかったり、生成後のイメージをズームアウトして周囲を含めて再生成できたりする点が気に入っています。
静止画生成のプロンプトとしては、事細かに情景を指定するやり方もありますが、今回は必要最小限に留めて、生成AIが作り出すバリエーション(Midjourneyの場合には、一度に4枚)を見ながら選択や調整を行なっていきました。そのほうが、自分の発想に捉われない絵柄を得られたりして良い面もあるからです。
もちろん、場合によってChatGPTなどを利用して画像生成用のプロンプトを作り込むこともあり、このあたりは目的によっても異なってくるでしょう。「荒野の地平線に沈む夕陽」の英語プロンプトを基本に「ドローンショット」などの撮影方法を加えることでバリエーションを持たせています。
同様に、動画の構成も最初から細部まで作り込むのではなく、生成結果に応じて変更したり、足りなくなった部分を随時生成するようにしました。現状の生成AIでは、100%思った通りの画像や動きが得られるとは限らないため、そのように臨機応変なやり方が最も適していると考えるからです。
▲一回の生成で4つのイメージが得られるMidjourneyの特性を活かし、色々なパターンを生成したうえで、意図にあったイメージに対するバリエーション生成やズームアウトによる周囲の風景の描画を繰り返しながら、適したイメージを選択
最大4秒間のAI生成動画の活用法
元になる静止画がある程度揃ったところで、動画の生成に移ります。部分ごとの動きをつけやすいのはRunwayですが、僕が購読しているスタンダードプランで付与される月あたり125秒という生成時間は、試行錯誤をしているとすぐに使い果たしてしまうような分量です。
そこで、PixVerseやHaiperなどの無料サービス(今はベータ版的な公開なので、正式サービスへの移行後は有償プランも設けられるはずです)も併用しています。
どのサービスも1回あたり最大4秒の生成ですが、たとえば各メンバーのポートレートに対して「閉じていた目を開く」のようなプロンプトを与えても、必ずしも、うまく目を開けてくれるとは限りません。また、余計な動きや歪みが含まれてしまうこともあるので、4秒間のカットすべてを利用できることは稀です。
そのため、1シーンに対して最低4回は動きを生成し、さらにそれぞれの4秒の中で使えそうな部分を編集時に切り出したうえで、スロー再生で再生時間を確保するような手法も活用しています。
ちなみに、こうしたやり方は、現在のような制約のある生成AI利用の映像制作において定石化しているテクニックです。
加えて、動画生成サービスは、なるべく計算コストを抑えるためか、実は生成動画の解像度が低め(720p程度)で、フレームレートも低い(十数フレーム/秒)ものが大半です。
そのままでは、トリミングやスローモーションでの利用が難しいため、Topaz Video AIという優秀なビデオエンハンサーアプリを使って後処理を行い、4Kの60fps動画にアップスケールしたもので最終的な編集を行うようにしました。
▲有償アプリだが、動画のアップスケーラー、エンハンサーとして定評のあるTopaz Video AIを使い、AI生成された動画ファイルの解像度とフレームレートを高めている
ちなみに、キャラクターに歌を歌わせるリップシンク動画を作れるサービスもありますが、今回のPVでリアム・オコナーが歌詞の一部を歌っている箇所のリップシンクは、別の方法で作っています。
具体的には、唇以外の顔のパーツの動きもリアルなRunwayの機能を使って歌詞を文章として読み上げさせ、編集時に歌に合うように部分ごとのスピード調整をしました。結果として、何気なく口ずさんでいるような効果が生まれたかと思います。
もう1箇所、メンバー全員が揃って宣材写真を撮影しているという想定のシーンでは、エリオットやリアムが決め顔ではなく笑っている動画も挿入することで、グループの実在感を増す効果を狙ってみました。ほんの短いパートですが、ここは個人的に気に入っている部分です。
▲全員が決め顔で写っている宣材写真イメージとは別に、笑っているメンバーもいる動画を挿入することで、リアリティを高めている
編集はiMovieとDaVinci Resolveで
編集ではあまり凝ったことはせずに、M1のMacBook Pro上でApple純正のiMovieを使ってまとめています。とはいえ、ところどころ細かな作業や、やや複雑なマスキングが必要なパートでは高機能なDaVinci Resolveも併用しました。
今回のPVでは、松尾さんが生成していたThe Odyssey of Echoesのアルバムカバーアートを利用し、重々しい扉が開いていくとThe Midnight Odysseyの音楽世界が広がっているような動画を、最後にオープニング的に追加しました。
元は正方形の静止画であり、もちろん扉の向こう側は隠れていて見えません。これも、Adobe Fireflyなどを利用して左右を拡張したり、扉の向こう側を生成させたりしています。
さらに扉が開くアニメーションをRunwayのモーションブラシ(領域を指定して動きをつけられる独自機能)を作り、それをDaVinci Resolveのマスキング機能でレイヤーとして重ねました。
▲無償ながら高機能なDaVinci Resolveを使って、オープニングの扉のマスキング合成を行った
なお、最後に表示されるARTIFICIAL FLIXというのは、大谷が生成AI動画を作る際の活動名です。
このようにCrimson SkiesのPVは、実際にはそれなりの工数や工夫を経て作られていますが、それは実写やCGを含めたすべての映像制作に付きものの裏の作業なので、読者の皆さんには完成した映像を単純に楽しんでいただければと思います。