AIの“考える時間”を最大4分の1にする高速法「Chain of Draft」をZoomが開発、アリババの新しいローカル動画生成AI「Wan2.1」など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

OpenAIが新バージョン「GPT-4.5」をリリースしました。ChatGPT Proユーザーに展開されています。

Anthropicは数学やコーディングなどのタスクを得意とする推論モデル「Claude 3.7 Sonnet」を発表しました。OpenAIのo1を超える性能を示しています。また性能を評価するベンチマークの一環として、ポケモン赤をプレイするパフォーマンスを実施しました。結果は、ジムリーダー3人を倒し、その高度な能力を証明しました。

Amazonは音声AIアシスタント「Alexa+」を発表しました。月額19.99ドルですが、Amazonプライム会員であれば無料で使用できます。システムにはAnthropicが協力しており、Claudeモデルが活用されているといいます。


Microsoftが小規模言語モデル「Phi-4」において、新たに「Phi-4-multimodal」と「Phi-4-mini」を発表しました。Phi-4-multimodalは5.6Bパラメータのモデルで、自動音声認識(ASR)と音声翻訳(ST)などの音声関連で優れた精度を示しています。Phi-4-miniは3.8Bパラメータのテキスト特化モデルで、推論、数学、コーディングなどのタスクで大型モデルを上回る性能を示しています。

さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第85回)では、アリババの新しいオープンソース動画生成AI「Wan2.1」や、PC画面操作やロボット操作を実行できるマルチモーダルAIエージェント「Magma」を取り上げます。

また、フラクタルを取り入れた生成AI「Fractal Generative Models」や、推論モデルの“考える時間”を精度は同等のまま高速にする手法「Chain of Draft」(CoD)をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、大規模言語モデル(LLM)を脆弱性のあるコードを生成するようにファインチューニングすると、コーディングとは無関係の幅広い質問に対しても悪意ある応答を示すことを明らかにした研究結果を単体記事で掘り下げています。



アリババの新しいオープンソース動画生成AI「Wan2.1」はRTX4090で5秒間の480P動画を4分で生成

Alibaba GroupのTongyi Labが開発するオープンソースAI「Wan2.1」は、テキストや画像などに基づいて高品質な動画を生成することができます。

Wan2.1は複数の機能を備えており、テキストから動画、画像から動画への変換はもちろん、動画編集、動画から音声、テキストから画像への変換も可能です。また、中国語と英語の両方のテキストを生成できる動画モデルでもあります。

T2V-14BモデルとI2V-14Bモデルにおいて、既存のオープンソースモデルやクローズドモデルを上回る性能を持つといいます。特にT2V-1.3Bモデルはわずか8.19GBのVRAMしか必要とせず、一般的なGPUで動作することができます。RTX 4090 GPUでは、最適化技術を使用せずに約4分で5秒間の480P動画を生成することができます。

技術的には、独自の時空間変分オートエンコーダー「Wan-VAE」が特徴的で、任意の長さの1080P動画を処理できる高い効率性を実現しています。これにより、複雑な動きのある現実的な動画から映画品質の視覚効果まで、様々なスタイルの動画生成が可能になりました。

Wan: Open and Advanced Large-Scale Video Generative Models
GitHub | Blog | Hugging Face

“フラクタル”を取り入れた生成AI「Fractal Generative Models」をMITとGoogleが開発

MIT CSAILとGoogle DeepMindに所属する研究チームは、「フラクタル生成モデル」(Fractal Generative Models)を発表しました。これは生成AIの設計に自然界の法則を取り入れたアプローチです。

自然界では雪の結晶や木の枝分かれ、雲の形など、同じパターンが大小さまざまなスケールで繰り返される「フラクタル」と呼ばれる構造が多く見られます。このフラクタルの概念をAIに応用したのが、今回のフラクタル生成モデルです。

従来の生成AIが単一の大きなモデルで処理していたのに対し、このアプローチでは小さな生成モデルを入れ子構造のように組み合わせます。各モデルが内部で同じタイプのモデルを再帰的に呼び出すことで、効率的に複雑な画像を生成できるようになりました。

研究チームはこのモデルを使って、画像をピクセル単位で生成するという課題に挑戦しました。通常、AIはピクセルを一列に並べて処理するため膨大な計算が必要になりますが、フラクタル生成モデルでは画像を階層的に分割して効率よく生成します。

その結果、256×256サイズの高解像度画像をピクセル単位で生成できることを示し、平均スループットは1枚あたり1.29秒でした。この研究の重要な特徴は、フラクタルデザインにより、モデルがより少ない計算コストで高次元のデータを扱えることです。例えば、256×256画像のモデリングに必要な計算コストは、64×64画像のモデリングコストのわずか2倍にすぎません。

Fractal Generative Models
Tianhong Li, Qinyi Sun, Lijie Fan, Kaiming He
Paper | GitHub

PC画面操作やロボット操作を実行できるマルチモーダルAIエージェント「Magma」をマイクロソフトが開発

Microsoft Researchを中心とした研究チームが、画像や映像を理解するだけでなく、実世界でも機能するマルチモーダルAIエージェントの基盤モデル「Magma」を発表しました。Magmaは画像や映像を見て状況を理解し、Webサイト操作のUIナビゲーションやロボット操作などを実行することができます。

従来のビジョン言語モデルとは異なり、Magmaはマルチモーダル入力を解釈し、指定された目標に対して計画を立て、行動を実行できます。研究チームは「Set-of-Mark」という技術を使って画像内の操作可能なボタンや物体に番号を付け、AIがそれらを正確に識別できるようにしています。また「Trace-of-Mark」技術では、物体の動きの軌跡を追跡することで、時間の経過に伴う変化も理解できるようにしています。

Magmaの学習には、UIスクリーンショット、ロボット操作データ、人間の指示動画、一般的な画像・テキストデータなど、約3900万の多様なサンプルを含む大規模なデータセットが使用されました。このアプローチにより、Magmaは言語的知能と空間的知能の両方を獲得し、異なる環境での様々なタスクに対応できるようになっています。

実験結果では、MagmaはUIナビゲーション(Mind2Web、AITW)やロボット操作(BridgeやGoogle Robotなど)のタスクにおいて、既存の専用モデルを上回る性能を示しました。特に注目すべき点は、Magmaが少量のデータでの微調整でも高い適応能力を発揮し、未知のタスクにも一般化できることです。また、空間的推論や映像理解などの一般的なマルチモーダルタスクでも競争力のある結果を示しています。

Magma: A Foundation Model for Multimodal AI Agents
Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao
Project | Paper | GitHub

推論モデルの“考える時間”を精度は同等のまま高速にする手法「Chain of Draft」(CoD)をZoomが開発

Zoom Communicationsは、大規模言語モデル(LLM)の推論能力を向上させる新しい手法「Chain of Draft」(CoD)が発表しました。

従来のChain of Thought(CoT)という手法では、LLMに詳細な段階的思考プロセスを生成させることで推論能力を引き出していましたが、この方法は冗長な出力を生み、計算コストと応答時間の増加を招いていました。

一方、人間は複雑な問題を解く際、簡潔なメモや要点だけを書き留める傾向があります。Chain of Draftはこの人間の認知プロセスにヒントを得た手法です。Chain of Draftでは、LLMに各推論ステップで必要最小限の情報だけを含む簡潔な中間出力を生成させます。これによりLLMが少ないトークン数で効率的に複雑な問題を解決できます。

研究チームはGSM8k(算術推論)、BIG-benchの日付理解とスポーツ理解(常識推論)、コイン反転タスク(記号推論)といった様々なベンチマークでこの手法を評価しました。

OpenAIのGPT-4oとAnthropicのClaude 3.5 Sonnetの両方で実験を行った結果、Chain of Draftは従来のChain of Thoughtと同等の精度を維持しました。具体的には、スポーツ理解やClaudeの日付理解でChain of Thoughtを上回り、コイン反転では同等でした。その他タスクでも僅差で下回った程度でした。それでいて、使用するトークン数を最大92.4%削減し、応答時間も最大76%短縮(GPT-4oで4.2秒が1.0秒に)することができました。

Chain of Draft: Thinking Faster by Writing Less
Silei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He
Paper


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。