きのうメイキング記事を書いて完成させたばかりのミュージックビデオが早くも作り直しです。Take 2を公開しました。
どうしてそうなったかというと、現在メインで使っている動画生成AIサービスのRunway Gen-4に新しく高速モードが登場したからです。

このRunway Gen-4 Turboはおよそ50秒ちょっとでImage to Videoの動画を10秒分生成できます。これはもう、静止画の生成と変わらないくらい。
同様の高速モードは旧モデルであるGen-3にはあったのですが、キャラクターの一貫性やプロンプト遵守、全体的な品質ではGen-4が格段に向上したため、ちょっと戻れない感じ。

品質がいい分、Gen-4の生成スピードは遅く、4分以上かかります。Gen-3 Turboのスピードに慣れ切った身には、この上にリップシンクというのは選択しづらかったのです。
ちなみにRunwayのリップシンクはいったん動画を生成した後で10~20秒の準備と、生成そのものに1分30秒~2分ほどかかります。それでもHeyGenよりは手軽に使えるのですが。
HeyGenのリップシンクは一回で1曲丸ごと生成できますが、下手すると完成に数十分から1時間かかります。口が大きく不自然に開いたり髪の下の部分が動かなかったりといったバグはだいぶなくなっているのですが、背景の樹木や人が動かないのが、見る人が見れば気づくところ。
今回最初に出したバージョンでは、クリップをたくさん使って切り刻んでも誤魔化しきれず、気付いた人もいたようです。
KLINGはさらにRunwayよりもさらに自然なリップシンクができますが、これはいつ出来上がるかわからないくらい時間がかかるため、その作業を1曲分全てやる気にはなれません。ここぞというときに使うくらい。
そんな問題が、Gen-4 Turboの登場によって一挙に解決しました。2分ちょっとあれば、10秒分のリップシンクもできるからです。
ならば、気になっていたところを全て置き換えてしまおうと、やってみました。
Midjourney V7を使って、前回使った画像のバリエーションを数点作り、それを起点に動画を作成。

一番のお気に入りは、自分の5声コーラスが「はあーーーー!」と重なるブレイクで、手のひらの上の桜の花びらを一気に吹き飛ばすところ。本人的にいちばん気持ちいいシーン。

比較のために、今回のTake 2の右下に旧バージョンを配置した動画も用意しました。どこがどう変わったのかを見ていただくのにいいかと思います。
そして、この記事を書き終わろうとしたときに、Gen-4(Turboじゃない方)の所要時間を確認するために生成した動画を見たら、指示していなかったのに、いい動きをしているのを発見。
最後の「あなたを想いながら」のところで自分の胸に手を当てる仕草。まさにこれはこのビデオのラストを飾るに相応しいものじゃないですか。

そこで、ラストのクリップだけ置き換えて、Take 3を作ってしまいました。これがファイナルカットになるかどうか。
新しい技術が出てくるたびに、創作意欲が湧いてきます。しばらくは「困ったなあ、またすごいのきちゃったよ」と言いながら、新しい曲に取り組むんだと思います。