Googleは、画像生成AIモデル「Imagen 3」を「Gemini」に統合したと発表しました。無料版を含むすべてのプランで利用可能です。
中国から新たな動画生成AI「Hailuo」が登場しました。テキストや画像を入力すると、数秒の短い動画を生成します。有料サブスクリプションも用意されています。
さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第67回)では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」を取り上げます。
また、OpenAIが発表した、AI系競技プログラミングをベースにしたベンチマーク「MLE-bench」と、複数のAIエージェントが協力してタスクを実行するマルチエージェント用フレームワーク「Swarm」をご紹介します。
そして、生成AIウィークリーの中でも特に興味深い技術や研究にスポットライトを当てる「生成AIクローズアップ」では、AIがRNAの未知なる7万以上の新種ウイルスを発見した研究を単体で掘り下げます。
商用利用可能な249億パラメータのオープンソース・マルチモーダル大規模言語モデル「ARIA」
ARIAは、Rhymes AIチームが開発したオープンなマルチモーダル大規模言語モデルです。複数の入力モダリティ(テキスト、コード、画像、動画)にわたって理解能力を持つ単一のモデルで、同等の能力を持つモダリティ特化型モデルと同等かそれ以上の性能を発揮します。
ARIAの構造は、MoEデコーダーを中心としています。パラメータ効率が良く、視覚入力に対してはトークンごとに39億のパラメータが、テキスト入力に対してはトークンごとに35億のパラメータが活性化されます。モデル全体では総計249億のパラメータを持ち、64,000トークンのコンテキストウィンドウをサポートしています。
訓練データには6.4兆の言語トークンと4000億のマルチモーダルトークンが使用されました。4段階の訓練パイプラインを経て、言語理解、マルチモーダル理解、長文脈処理、指示追従の各能力を段階的に獲得しています。
ベンチマーク評価では、ARIAは同規模のオープンソースモデル(Pixtral-12BやLlama3.2-11Bなど)を上回り、一部のタスクでは非公開モデル(GPT-4oやGemini-1.5など)と互角の性能を示しました。特に長い動画や文書の理解において優れた結果を残しています。
ARIAの特筆すべき点として、モダリティに特化したエキスパート層が自然に形成される点が挙げられます。これにより、様々な入力形式に対して効率的な処理が可能となっています。
ARIAをApache 2.0ライセンスの下で公開し、学術利用と商用利用の両方で無料で使用できるようにしています。
Aria: An Open Multimodal Native Mixture-of-Experts Model
Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li
Project | Paper | GitHub | Blog | Hugging Face
商用利用可能なオープンソースな動画生成AI「Pyramid Flow」、テキストから10秒の動画を生成
高解像度の動画生成には広大な時空間のモデリングが必要であり、それが計算コストを押し上げる要因となっています。従来の方法では、カスケードアーキテクチャを採用し、フル解像度での直接的な学習を避けることでこの問題に対処してきました。しかし、このアプローチでは各サブステージが別個に最適化されるため、知識の共有が難しく、柔軟性も制限されてしまいます。
この課題を解決するため、新たに「ピラミッド型フローマッチングアルゴリズム」が提案されました。このアルゴリズムでは、従来のノイズ除去の過程を複数のピラミッドステージとして再解釈し、最終ステージのみがフル解像度で動作します。これにより、計算効率を高めつつ高品質な動画生成が可能となります。また、各ピラミッドステージのフローが連続性を保つように相互にリンクされており、情報の断絶を防いでいます。
さらに、時間的なピラミッドを活用した自己回帰型の動画生成も導入されており、これによりフル解像度の履歴情報を圧縮できます。この全体的なフレームワークは、単一のDiffusion Transformer(DiT)を用いてエンドツーエンドで最適化することが可能であり、モデルのシンプルさとスケーラビリティを両立しています。
これらの仕組みを組み込んだモデルが「Pyramid Flow」です。実験では、このモデルがテキスト入力から768pの解像度で24FPSの高品質な5秒(最大10秒)の動画を生成できることが示されました。これは従来の方法に比べて大幅な効率化を実現しています。画像から動画への生成もサポートしています。
Pyramid FlowはMITライセンスであり、商用/エンタープライズ用途でもダウンロードして使用できます。Pyramid Flowは、北京大学、北京郵電大学、動画生成AI「Kling」開発元であるKuaishou Technologyなどに所属する研究者らによって開発されました。
Pyramidal Flow Matching for Efficient Video Generative Modeling
Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
Project | Paper | GitHub | Hugging Face
OpenAI、AI競技プログラミングのコンペを利用したAIベンチマーク「MLE-bench」公開
OpenAIは、「MLE-bench」という新しいAIエージェントのベンチマークを導入しました。このベンチマークは、AIが機械学習エンジニアリングのタスクをどの程度うまく実行できるかを測定することを目的としています。
MLE-benchは、Kaggle競技プログラミングプラットフォームから75の機械学習関連のコンペティションを厳選し、多様で挑戦的なタスクのセットを作成しました。これらのタスクは、モデルのトレーニング、データセットの準備、実験の実行など、実世界の機械学習エンジニアリングスキルをテストします。
各コンペティションに対する人間のベースラインは、Kaggleの公開リーダーボードを使用して確立されています。研究者たちは、オープンソースのエージェントフレームワークを使用して、複数の最先端の言語モデルをこの評価基準でテストしました。
最も優れたパフォーマンスを示したのは、OpenAIのo1-previewモデルとAIDEフレームワークを組み合わせたセットアップで、コンペティションの16.9%で少なくともKaggleの銅メダルレベルを達成しました。
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry
Paper | GitHub | Blog
OpenAI、複数のAIが協力してタスクを実行するマルチエージェント用フレームワーク「Swarm」公開
OpenAIが実験的な教育用フレームワーク「Swarm」を公開しました。Swarmは、複数のAIエージェントを効率的に連携させ、複雑なタスクを実行するモデルを構築するためのフレームワークです。
このフレームワークは、「エージェント」と「ハンドオフ」という2つの基本的な概念に焦点を当てています。エージェントは特定の指示と機能のセットを持つ実行単位で、ハンドオフは一つのエージェントから別のエージェントにタスクを移す過程です。
SwarmはChat Completions APIを利用し、クライアントサイドで動作します。軽量で高い制御性を持ち、テストが容易であるという特徴があります。これにより、複雑なマルチエージェントシステムの開発と管理が簡素化されます。
ただし、Swarmは本番環境での使用を意図していない実験的なフレームワークです。主に教育目的で設計されており、開発者がマルチエージェントシステムのオーケストレーションについて学び、探求するためのリソースとして提供されています。
OpenAI
GitHub