顔芸リップシンク、4Kアップスケールから顔修復まで。最近の動画生成AIおもしろ新機能を駆使してみた(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

毎月13万円をかけている生成AIサブスクですが、特に動画方面で、ちょこちょことアップデートがされています。今回は最近気になった新機能を試してみます。


■Runwayの顔芸機能「Act-One」

まず、現在の主力であるRunway Gen-3。この連載ではまだ紹介していない機能に、「Act-One」があります。自分の顔の表情の変化を動画に反映できるというもの。

リップシンクがオーディオデータ、またはTTS(Text to Speech)の文字列に合わせて口パクをやらせる機能なのに対し、Runway Gen-3のAct-Oneは、自分で演技した顔アップ動画を参照し、目や口の動きを動画に反映させる仕組みです。

オーディオリップシンクの場合は、例えばア行、オ行の口の開き方大きすぎて不自然になったり、マミムメモを発音するときに口が閉じていなかったりといった細かいところをミスる傾向にあります。

動画生成のプロンプトでsingingと指定すると目を閉じてしまう傾向もあるため、あえてtalkingと指定するといったテクニックも必要だったりします。

でも、自分で演技してしまえば、顔の動きに関してはうまく反映できるはず。すでにオーディオデータがある場合には二度手間になりますが、こちらの方がよりリアルな口パクができることになります。理論上は。

では、実際にやってみましょう。

まず、自分の「顔芸」を収録します。

ブラウザ上で録画する方法と、すでに録画しているものをアップロードする方法が選択できます。

その場で録画する場合には、顔の位置決めをして、そこから大きく逸脱しないように最大30秒収録します。その時に使いたいセリフや歌を、自分で演技。顔以外の動きは最小限にするよう指示があります。

▲自分の顔演技を録画(最長で30秒)

作例では、筆者が声の演技(ケイト・ブッシュの曲に合わせて歌っている)を、HeyGenで生成した静止画に転写しています。

Act-Oneが演技転写できるのは目を含む顔の表情、口の動きだけで、手振りなどは反映されません。それでも、意図したとおりの、より自然なリップシンクを可能にしてくれます。

動きの強度を5段階で変えられるのもなかなか良いアイデアです。リップシンクは全てこのコントロールは欲しいところです。

なお、この参照画像は静止画でも動画でもよくて、動画の場合はリアル動画でもRunway以外の生成AI動画でも可能。つまり、Act-Oneを通すことでKLING、Hailuoといった他の優れた動画をリップシンクし、さらに次に紹介する4K化することもできるのです。

■画像生成AIサービス初の4Kアップスケール

Runwayは、4Kへのアップスケールもサポートしました。これはGen-3で生成した動画全てに適用できます。

Gen-3の生成動画は、ランドスケープが1280×768ピクセルですが、これが一気に4096×2458ピクセルへとアップスケールされます。

操作はきわめて簡単で、生成された動画左下のActionsボタンからポップアップした中の最下部にある「Upscale to 4k」を選ぶだけ。変換はすぐに始まります。動画のダウンロードメニューからも選べます。

他の動画生成AIサービスで4Kへのアップスケールに対応しているところはまだありませんし、Unlimitedプランであれば追加費用はかかりません。

HeyGenで生成した画像をRunway Gen-3 Alpha TurboのImage to Videoで生成した動画と、それを4Kにアップスケールしたものを比較用にYouTubeにあげてあります。

■顔をきれいに修復できるSVFR

これは商用サービスではありませんが、顔をきれいに修復できるツールが発表されたので紹介します。SVFR(Stable Video Face Restoration)というオープンソースソフトで、入力されたビデオの顔を修復するだけでなく、モノクロをカラーに、さらにインペイントもできるというすぐれもの。

筆者は1980年代に記録した8mmビデオやminiDV撮影の粗いホームビデオを修復したくて、これまでいろいろと試してきました。

現状では動画のアップスケーラーとしてはTopaz Video AIがベストだという評価が一般的で自分でも使っているのですが、SVFRはこれと比べても抜きんでた性能を持っているようです。

Hugging Faceにデモがあったので、1988年に撮影したビデオを適用して比較してみました。

▲左がオリジナルの動画。SVFRを適用した右の動画は肌が滑らかになっているのがわかる

特に、肌が滑らかになり、質感がうまく復元されています。それだけかと思ったら、服や背景の塗りもノイズが消えていて、全体的に良い感じ。出来上がった動画は512×512ピクセルで縦横比が変わってしまったのをビデオ編集ソフトで修正したので劣化しているのを差し引いても優れた修復能力を見せています。

ディテールをAIで埋めてアップスケールしてくれるアプリとしてはReminiを以前から使っていて手放せないのですが、いったん静止画にした上でReminiを経由させると美肌化して質感がさらに向上します。

Runway Gen-3でこれをImage to Videoして、さらに4Kアップスケーラーを適用すると、アナログビデオが元だとは思えない4K動画になります。

▲1988年に8mmビデオで撮影した動画をSVFRで顔修復。その動画から切り出した静止画をRunway Gen-3 Alpha Turboで動画にし、さらに4Kアップスケール

ローカルマシンにインストールしてみましたが、現時点ではまだコマンドラインでしか使えないため、Gradioなどを使ったWeb UIの登場が待たれます。

最後に、今回紹介した3つの機能を使い、ミュージックビデオを作ってみました。今日は妻の誕生日なので、それにちなんだ歌をChatGPT o1とSuno v4で作り、1986年から88年にかけてのホームビデオをSVFRでアップスケール。

さらにそこから切り出した静止画をReminiで整え、Runwayで動画にして4Kアップスケール。リップシンクはRunwayのAct-Oneを使っています。

リアルな記録とAIによる「フェイク」の境界を感じ取っていただけたら幸いです。

《松尾公也》

Amazon売れ筋ランキング

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。