OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説（生成AIウィークリー）

テクノロジー AI

2024 Oct 21 9:43

山下裕毅（Seamless）

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。

特集

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説（生成AIウィークリー）

Googleは、画像生成AIモデル「Imagen 3」を「Gemini」に統合したと発表しました。無料版を含むすべてのプランで利用可能です。

中国から新たな動画生成AI「Hailuo」が登場しました。テキストや画像を入力すると、数秒の短い動画を生成します。有料サブスクリプションも用意されています。

動画生成AIにまたもや新星。「Hailuo」は写真を6秒の動画にできて（今のところは）無料。かつ人物の一貫性に優れている（CloseBox） | テクノエッジ TechnoEdge

Image to Video、つまり静止画を短い動画にできる動画生成AIの新サービスが登場しました。中国の「Hailuo」（ハイルオ）がそれで、中国製動画生成AIとしては、KLING、Viduに次ぐ3番手となります。

https://www.techno-edge.net/article/2024/10/09/3749.html続きを読む »

さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」（第67回）では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」を取り上げます。

また、OpenAIが発表した、AI系競技プログラミングをベースにしたベンチマーク「MLE-bench」と、複数のAIエージェントが協力してタスクを実行するマルチエージェント用フレームワーク「Swarm」をご紹介します。

そして、生成AIウィークリーの中でも特に興味深い技術や研究にスポットライトを当てる「生成AIクローズアップ」では、AIがRNAの未知なる7万以上の新種ウイルスを発見した研究を単体で掘り下げます。

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析（生成AIクローズアップ） | テクノエッジ TechnoEdge

AIがRNAの未知なる領域を解析し、7万以上の新種ウイルスを発見した論文「Using artificial intelligence to document the hidden RNA virosphere」について。

https://www.techno-edge.net/article/2024/10/14/3761.html続きを読む »

商用利用可能な249億パラメータのオープンソース・マルチモーダル大規模言語モデル「ARIA」

ARIAは、Rhymes AIチームが開発したオープンなマルチモーダル大規模言語モデルです。複数の入力モダリティ（テキスト、コード、画像、動画）にわたって理解能力を持つ単一のモデルで、同等の能力を持つモダリティ特化型モデルと同等かそれ以上の性能を発揮します。

ARIAの構造は、MoEデコーダーを中心としています。パラメータ効率が良く、視覚入力に対してはトークンごとに39億のパラメータが、テキスト入力に対してはトークンごとに35億のパラメータが活性化されます。モデル全体では総計249億のパラメータを持ち、64,000トークンのコンテキストウィンドウをサポートしています。

訓練データには6.4兆の言語トークンと4000億のマルチモーダルトークンが使用されました。4段階の訓練パイプラインを経て、言語理解、マルチモーダル理解、長文脈処理、指示追従の各能力を段階的に獲得しています。

ベンチマーク評価では、ARIAは同規模のオープンソースモデル（Pixtral-12BやLlama3.2-11Bなど）を上回り、一部のタスクでは非公開モデル（GPT-4oやGemini-1.5など）と互角の性能を示しました。特に長い動画や文書の理解において優れた結果を残しています。

ARIAの特筆すべき点として、モダリティに特化したエキスパート層が自然に形成される点が挙げられます。これにより、様々な入力形式に対して効率的な処理が可能となっています。

ARIAをApache 2.0ライセンスの下で公開し、学術利用と商用利用の両方で無料で使用できるようにしています。

Aria: An Open Multimodal Native Mixture-of-Experts Model
Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li
Project | Paper | GitHub | Blog | Hugging Face

商用利用可能なオープンソースな動画生成AI「Pyramid Flow」、テキストから10秒の動画を生成

高解像度の動画生成には広大な時空間のモデリングが必要であり、それが計算コストを押し上げる要因となっています。従来の方法では、カスケードアーキテクチャを採用し、フル解像度での直接的な学習を避けることでこの問題に対処してきました。しかし、このアプローチでは各サブステージが別個に最適化されるため、知識の共有が難しく、柔軟性も制限されてしまいます。

この課題を解決するため、新たに「ピラミッド型フローマッチングアルゴリズム」が提案されました。このアルゴリズムでは、従来のノイズ除去の過程を複数のピラミッドステージとして再解釈し、最終ステージのみがフル解像度で動作します。これにより、計算効率を高めつつ高品質な動画生成が可能となります。また、各ピラミッドステージのフローが連続性を保つように相互にリンクされており、情報の断絶を防いでいます。

さらに、時間的なピラミッドを活用した自己回帰型の動画生成も導入されており、これによりフル解像度の履歴情報を圧縮できます。この全体的なフレームワークは、単一のDiffusion Transformer（DiT）を用いてエンドツーエンドで最適化することが可能であり、モデルのシンプルさとスケーラビリティを両立しています。

これらの仕組みを組み込んだモデルが「Pyramid Flow」です。実験では、このモデルがテキスト入力から768pの解像度で24FPSの高品質な5秒（最大10秒）の動画を生成できることが示されました。これは従来の方法に比べて大幅な効率化を実現しています。画像から動画への生成もサポートしています。

Pyramid FlowはMITライセンスであり、商用/エンタープライズ用途でもダウンロードして使用できます。Pyramid Flowは、北京大学、北京郵電大学、動画生成AI「Kling」開発元であるKuaishou Technologyなどに所属する研究者らによって開発されました。

Pyramidal Flow Matching for Efficient Video Generative Modeling
Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
Project | Paper | GitHub | Hugging Face

OpenAI、AI競技プログラミングのコンペを利用したAIベンチマーク「MLE-bench」公開

OpenAIは、「MLE-bench」という新しいAIエージェントのベンチマークを導入しました。このベンチマークは、AIが機械学習エンジニアリングのタスクをどの程度うまく実行できるかを測定することを目的としています。

MLE-benchは、Kaggle競技プログラミングプラットフォームから75の機械学習関連のコンペティションを厳選し、多様で挑戦的なタスクのセットを作成しました。これらのタスクは、モデルのトレーニング、データセットの準備、実験の実行など、実世界の機械学習エンジニアリングスキルをテストします。

各コンペティションに対する人間のベースラインは、Kaggleの公開リーダーボードを使用して確立されています。研究者たちは、オープンソースのエージェントフレームワークを使用して、複数の最先端の言語モデルをこの評価基準でテストしました。

最も優れたパフォーマンスを示したのは、OpenAIのo1-previewモデルとAIDEフレームワークを組み合わせたセットアップで、コンペティションの16.9%で少なくともKaggleの銅メダルレベルを達成しました。

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
Paper | GitHub | Blog