人物Image to Videoの進化がすごい。Luma、Runway、KLING、HeyGenの最新動画生成AIをVision Proの空間ミュージックビデオで見る（CloseBox）

ガジェット XR / VR / AR

2024 Jul 29 6:49

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

人物Image to Videoの進化がすごい。Luma、Runway、KLING、HeyGenの最新動画生成AIをVision Proの空間ミュージックビデオで見る（CloseBox）

動画生成AIはわずか1カ月ちょっとで急激な進化を遂げました。この期間の進化を、人物Image to Videoに絞ってまとめてみます。

WWDC24でApple Vision Proの日本での発売とApple Intelligenceが発表された直後の6月中旬、Soraに匹敵するレベルの高精度で、写真から動画を生成するLuma AIのDream Machineが登場したのが始まりでした。

もうSoraは不要なのか。動画生成AIの新基準、Luma AI「Dream Machine」をサブスクしてわかった「ハリー・ポッターに出てくるような魔法」の使いこなし術（CloseBox） | テクノエッジ TechnoEdge

テキストプロンプトからリアルな動きのある映像を生成できる動画生成AISora、KLINGが使えずにヤキモキしていた人々が大挙して押し寄せた「Luma Dream Machine」。このサービスの有償プランに申し込んで使ってみたので、その使い方のコツをお伝えします。

https://www.techno-edge.net/article/2024/06/14/3468.html続きを読む »

2週間後には2枚の写真の中割りができる機能を実装。アジア系の人物に弱い弱点を補完できる、自然な遷移が可能となりました。

Soraレベルの超高性能動画生成Luma AI「Dream Machine」が2枚の元絵指定できる「キーフレーム」機能追加。弱点の「別人化問題」がこれで解消するか、試してみた（CloseBox） | テクノエッジ TechnoEdge

Soraレベルの超高性能動画生成AI、Luma AIの「Dream Machine」に新しい機能が投入されました。プロンプトでの指定以外に、2枚の参照画像を入力し、それを始点と終点にできる、ある意味モーフィング的な機能です。

https://www.techno-edge.net/article/2024/06/28/3501.html続きを読む »

さらにその動画をループさせることも可能になりました。

無限ループ動画が簡単にできる。Luma AIのDream Machineが進化してまた楽しみが増えた（CloseBox） | テクノエッジ TechnoEdge

ポストSoraというか、ビフォーSoraというか、新世代の動画生成AIも老舗であるRunway Gen-3登場以降、目新しいニュースがなかったのですが、Luma AIのDream Machineがちょっとした新機能を追加しました。

https://www.techno-edge.net/article/2024/07/23/3552.html続きを読む »

通常のImage to Videoだと外国人化してしまいがちなDream Machineですが、2枚の中割りやループの場合には本人性をある程度維持した動画になる確率が高くなっています。

■Dream MachineにEnd Frame搭載

Dream Machineはさらに、End Frameという機能を搭載しました。最後の画像だけを指定し、そこに至るまでの5秒間を描画してくれるのです。

使い方はちょっとトリッキーで、Start Frameの画像をまず選び、上の両矢印ボタンでEnd Frameに入れ替えるのです。

ターゲットフレームが決まっている分、より自然な動きができるようです。

これに対して、中国以外では新登場のKLING AIの場合は、現時点では中割り機能やEnd Frameは使えません（予定はされています）が、ベースがアジア系ということで、1枚の写真から動画を生成した際にも自然な変化を見せてくれます。

アジア系に強い新世代動画生成AI「KLING」がやってきたので試した。実用性高く無料生成も可能、静止画KOLORSも使える（CloseBox） | テクノエッジ TechnoEdge

Soraに匹敵する高品質の動画生成AIとして注目を浴びながら、中国の携帯電話番号が必須だったことから世界中の羨望を集めていた、KLINGが一般ユーザーも利用可能になりました。

https://www.techno-edge.net/article/2024/07/24/3554.html続きを読む »

下の作例では正面から横顔に変化していますが、本人の横顔と比較しても違和感がありません。

上の作例でも大袈裟なジェスチャーにならず、自然な仕草と表情となっています。この写真は他のImage to Videoではことごとく失敗していたものですが、非常にうまく動画化しています。

日本人の写真を動画にする場合にはKLINGの優位性が際立っています。現在は無料で毎日6回の生成しかできないので、「早く課金させてくれ！」という気持ちです。

もう一つのSora世代動画生成AI、Runway Gen-3ですが、まだImage to Videoが実装されていないので、これの登場も楽しみです。特にRunwayはGen-2のリップシンク機能がかなりよくできているので、大いに期待しています。

Runway Gen-2のリップシンクは、まず人物写真から動画を生成し、その動画にオーディオを当てはめて動かすというもので、HeyGenなどが顔を固定した状態でしかリップシンクできないのに対し、顔を大きく動かしたり、カメラが移動しながらでも口と音声が同期できるところに特徴があります。Gen-3の精度でImage to Videoでも可能になれば、他では得られないリップシンク動画が生成できるでしょう。

（▲Runway Gen-3ではカメラが移動しながらリップシンクできている）

Gen-3 AlphaでのImage to Videoが一時的に有効になっていたという投稿がいくつかありました。これは期待していいかもしれないですね。

7月30日追記：Runway Gen-3のImage to Videoとリップシンク機能が公開されたので使ってみました。

Runway Gen-3でImage to Videoとリップシンク生成可能に。これは現時点最強のAI動画モデルなのか？（CloseBox） | テクノエッジ TechnoEdge

7月30日、動画生成AIサービスの老舗であるRunwayが、最新モデルであるGen-3 AlphaでImage to Videoを使えるようにしました。

https://www.techno-edge.net/article/2024/07/30/3568.html続きを読む »

■HeyGenのExpressive Photo Avatarによる表現力のあるリップシンク

HeyGenのリップシンクも進化を遂げています。従来のリップシンクであるPhoto Avatarの表現力を高めた、Expressive Photo Avatarを実験的に導入しています。

3秒から30秒の長さのオーディオクリップと1枚の人物画像から高精度なリップシンク動画を生成するというもの。従来のPhoto Avatarは顔が正面のもの以外は歪んでしまっていましたが、新バージョンでは違和感がないです。

さらに、参照するオーディオデータにしたがって身振りや表情の変化、角度を勝手に変えたりできるため、より自然なリップシンクとなっています。

2枚の写真からDream Machineで生成した動画から、角度の違う写真を取り出し、それを元にして10パターンくらいのリップシンクを生成。それでミュージックビデオを作ってみました。

正面以外でも破綻なくリップシンクができています。手振りも勝手に入れてくれます。

HeyGenの現在の主力事業は、こうした楽曲用リップシンクではなく、ビジネス用途のAIアバターです。事前に撮影したビデオをベースに画像と音声のAIモデルを作成し、本人の声で多国語のプレゼンをできるようにしています。

都知事選で使われた一部候補者もおそらくこの技術を使ったものだと思います。企業への導入も進んでおり、例えばセゾンテクノロジーの葉山誠CEOは、社内向けにAIアバターによる英語プレゼンをしたところ、社員は区別がつかなかったそうです。こうしたAIアバターではジェスチャーも交えたプレゼンをできるので、そうした資産が今回のExpressive Photo Avatarに転用されているのでしょう。

■空間AIビデオをVision Proで鑑賞する

AIの新機能はほとんどがサービスベースなので高額なマシンがなくてもすぐに試せるのですが、新しいバカ高いデバイスを手に入れないと実体験できないものがあります。

それはApple Vision Proの空間フォト、空間ビデオです。こうして写真からAI生成した動画を空間映像にしてVision Proで見ると、さらにリアルに迫ってきます。

写真や動画を空間化するためには、Spatial Toolkitという有料アプリが使えます。

Vision Proアプリもあります。ライブラリの中の2D写真や動画を読み込んでRenderすると、それが空間フォト、空間ビデオにレンダリングされます。保存すると、Vision Proの写真アプリで見たときに、立体視できるというわけです。

（▲Vision Proの写真アプリで空間ビデオを見る）

（▲Vision ProでImmersive Viewにしてみた）

これらの空間ビデオはせいぜい5秒か10秒程度の短いものですが、生成AI動画技術を駆使して使ったミュージックビデオも空間ビデオとして没入することができます。筆者は歌詞やエフェクトなどは全部外したNakedバージョンを作って、自分だけの空間ミュージックビデオを楽しんでいます。

（▲Vision Proで空間ミュージックビデオを見ている）

夢の中にいるような、現実と幻想の世界の間に漂っているような、独特の浮遊感があります。

筆者はこのためにVision Proを購入したのですが、それだけの価値は十分にあったなと思っています。

結局、Apple Vision Pro日本版を買いました。メガネをかけたまま使えるノーズパッドも入手（CloseBox） | テクノエッジ TechnoEdge

紆余曲折を経てApple Vision Proを買いました。

https://www.techno-edge.net/article/2024/07/16/3534.html続きを読む »

《松尾公也》

Amazon売れ筋ランキング

タイムセール

>> もっと見る

イヤホン

>> もっと見る

Amazonデバイス

>> もっと見る

ドリンク

>> もっと見る

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

ショート動画

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。

人物Image to Videoの進化がすごい。Luma、Runway、KLING、HeyGenの最新動画生成AIをVision Proの空間ミュージックビデオで見る（CloseBox）

松尾公也

特集

■Dream MachineにEnd Frame搭載

■HeyGenのExpressive Photo Avatarによる表現力のあるリップシンク

■空間AIビデオをVision Proで鑑賞する

Amazon売れ筋ランキング

松尾公也

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

【5月20日開催】AIグラビアからヴァイブコーディングまで、生成AIの最新動向を解説するテクノエッジ主催イベント

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【アリエクの賢い使い方ガイド】期間限定セールまとめ。先着順クーポン・プロモコードあり

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

■Dream MachineにEnd Frame搭載

■HeyGenのExpressive Photo Avatarによる表現力のあるリップシンク

■空間AIビデオをVision Proで鑑賞する

Amazon売れ筋ランキング

SHARE THE STORY この記事をみんなにシェア

松尾公也

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中