アニメ主人公になりきり好きなシーンを生成しながら無限に遊べるゲームAI「AnimeGamer」、写真内の人物を映像化できる「DreamActor-M1」など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第90回)では、写真内の人物をテキスト指示に応じたアニメーション映像を生成する動画AI「DreamActor-M1」や、テキストから映画級の人物映像を生成できる動画AI「MoCha」をご紹介します。

またアニメキャラクターの主人公になりきり、好きなシーンを生成しながら遊べるシミュレーションゲームAI「AnimeGamer」、複数の写真(人物、背景、物体)を入力に、それらを調和させた映像を生成する動画AI「SkyReels-A2」を取り上げます。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、アイデアを自然言語で入力するだけでブラウザ上でゲームやWebサイトを生成できる完全無料でオープンソースなバイブコーディングAI「DeepSite」を単体記事で掘り下げています。



アニメキャラクターと無限に遊べるシミュレーションゲームAI「AnimeGamer」

「AnimeGamer」は、好きなアニメキャラクターの生活を体験できる無限のシミュレーションゲームを作り出す技術です。

例えば、ユーザーが映画「崖の上のポニョ」の主人公である宗介をベースとした場合を考えます。ユーザーは自由な言語指示を通じてシーンを生成します。「部屋でポニョと一緒に夕飯を食べる」と入力した場合、その動的シーンが生成され、同時に体力や社会性のパラメーターが増加します。

このようにAnimeGamerは一貫性のあるゲーム状態を生成し、それは文脈の一貫性を持つ動的なアニメーションショットと、体力、社会性、エンターテインメント値のキャラクター状態の更新で構成されています。

研究チームは、10本の人気アニメ映画から約2万本のビデオクリップを収集し、各クリップからキャラクターの動き、背景、状態を自動抽出するデータセット構築パイプラインも開発しました。

評価実験では、GPT-4oやユーザー調査を通じて、指示への適合性、文脈的一貫性、キャラクター一貫性、スタイル一致性といった複数の指標でAnimeGamerが従来手法を大きく上回りました。特に、異なるアニメ作品からのキャラクター間の相互作用やキャラクター固有の動作においても優れた性能を示しています。

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan
Project | Paper | GitHub

1枚の画像から人物アニメーションを生成する動画AI「DreamActor-M1」を中国ByteDanceが開発

ByteDanceの研究チームが開発した「DreamActor-M1」は、1枚の静止画から自然な人物アニメーションを生成する技術です。参照画像が与えられると、 DreamActor-M1はビデオからキャプチャされた人間の動作を模倣し、複数のスケール(顔のみ/上半身/全身)にわたって表現力豊かなビデオを作成できます。

既存の技術では、細かい表情の制御や様々な画像サイズへの対応、長時間の動画での一貫性維持に課題がありました。DreamActor-M1はこれらの問題を解決するために、「ハイブリッドガイダンス」という新しい手法が備わったDiffusion Transformers(DiT)ベースのフレームワークを採用しています。

ハイブリッドガイダンスでは、顔の表情、頭の動き、体の動きの3つの制御を組み合わせています。これにより、目のまばたきや唇の微細な動きといった細かい表情と、全身の動きを同時に高精度で制御できるようになりました。

また、顔のアップから全身までさまざまな画像サイズに対応するために、異なる解像度のデータを使用した段階的なトレーニング方法を開発しました。さらに、複雑な動きの際に見えない部分の一貫性を保つための技術も組み込まれています。

実験では、DreamActor-M1は他の最先端技術と比較して、より自然で表現力豊かな結果を示しました。特に顔の細かい表情と全身の動きを同時に自然に制御できる点が大きな進歩です。

応用としては、人物だけでなくアニメキャラクターを動かしたり、オーディオ駆動のリップシンク、顔の表情や頭の動きなど、動きの一部のみを転送することや、頭部の姿勢方向を固定したアニメーションなどが可能です。

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
Project | Paper

音声とテキストだけで映画級の人物動画を生成できるAI「MoCha」をMetaが開発

「MoCha」は自然言語と音声のみから映画のようなクオリティのビデオを生成できるAIモデルです。このモデルは、キャラクターの自然な発話、感情表現、全身動作を高い精度で再現することができます。

これまでの動画生成AIには大きく分けて2つの限界がありました。SoRA、Pika、Lumaなどの映像生成モデルは、視覚的には魅力的な映像を作れますが、キャラクターの発話能力が非常に限られていました。口の動きも単純であり、実際の対話内容とは上手く連動していませんでした。

一方、Loopy、Hallo3、EMOなどの音声駆動型モデルは顔だけの「トーキングヘッド」に特化しており、全身動作や複数キャラクターの自然な相互作用を表現することができませんでした。

MoChaはこれらの課題を解決するために、3つの技術を導入しています。1つ目は補助的な情報なしでテキストと音声だけから直接学習する方法。2つ目は音声とビデオの同期精度を高める新しい注意機構。3つ目は音声付きとテキスト付きの両方のデータを活用する学習方法です。

これらの技術により、MoChaは複数のキャラクターによる自然な会話シーンの生成を実現しています。キャラクターが交互に話し、相手の言葉に適切に反応する映像を作ることができるようになりました。

MoCha: Towards Movie-Grade Talking Character Synthesis
Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
Project | Paper

複数の写真を組み合わせた調和動画を生成するAI「SkyReels-A2」

SkyReels-A2は、複数の画像を組み合わせて動画を作り出すビデオ拡散モデル技術です。例えば、ある人物の写真、背景の写真、物体の写真を入力すると、それらが自然に組み合わさった動画が生成されます。

この技術は「Elements-to-Video」(E2V)と呼ばれ、参照画像の特徴を忠実に保ちながら、テキスト指示に従った動きのある映像を作り出します。従来の技術では複数の要素を自然に組み合わせることが難しかったのですが、SkyReels-A2はこの問題を解決しました。

研究チームは高品質な「テキスト」「参照画像」「映像」の3組からなる、選定されたデータセットを導入しました。また、E2V技術を評価するベンチマーク「A2-Bench」も開発しています。

実験により、SkyReels-A2は高品質で編集可能、時間的に一貫性のある複数の視覚要素を含む映像を生成できることが実証されました。定性的および定量的分析の両方において、先進的な商用クローズドソースモデルと比較しても優れた性能を発揮しています。

SkyReels-A2: Compose Anything in Video Diffusion Transformers
Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou
Project | Paper | GitHub


《山下裕毅(Seamless)》

Amazon売れ筋ランキング

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。