リアルタイム音声対話できるオープンソースAI「Step-Audio」、ハリウッド品質の映像だけで訓練した動画生成AI「SkyReels V1」など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

Xに統合しているAI「Grok」に最新モデル「Grok 3」が登場しました。無料ユーザーでも試すことができます。

米国のロボット企業Figureが開発した新型AI「Helix」は、人間の言葉で指示するだけで、人型ロボットが未知の物体を自由に扱えるようになる技術を実現しました。このAIを搭載した2台のロボットが協力して買い物の片付けを行ったり、これまで見たことのない数千種類の日用品を器用につかんだりできます。

Googleが新たに「AI co-scientist」という、Gemini 2.0をベースにした複数のAIエージェントシステムを発表し、科学者の研究活動を支援する取り組みを開始しました。このシステムは、科学的な仮説の生成から実験プロトコルの作成まで幅広くサポートし、実際に白血病治療薬の開発や肝臓の線維症治療など、複数の生物医学分野での実験で有望な結果を示しています。

さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第84回)では、リアルタイムの音声対話を実現するオープンソースAIモデル「Step-Audio」、実世界の報酬基準でフリーランスのAIエンジニアリング能力を評価するOpenAI開発ベンチマーク「SWE-Lancer」を取り上げます。

また、ゲームのプレイシーンを生成するMicrosoft開発「Muse」、ハリウッド品質の映像で訓練したオープンソース動画生成AI「SkyReels V1」をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、ゼロからゲノムを生成できる、9.3兆個塩基対のDNA配列データを学習した40Bパラメータを持つ大規模言語モデルを提案した研究を単体記事で掘り下げています。



リアルタイムの音声対話を実現するオープンソースAIモデル「Step-Audio」

「Step-Audio」は、リアルタイムの音声対話を実現するオープンソースモデルです。このシステムは、130Bパラメータのマルチモーダルモデルを採用し、音声認識、意味理解、対話、音声クローニング、音声合成など、これら機能を単一のモデルに統合しています。

オープンソースとして公開されているStep-Audio-Chatバージョンに加え、軽量な音声合成モデルStep-Audio-TTS-3Bも利用可能です。

Step-Audio は、理解と生成を調和させ、多言語会話 (中国語、英語、日本語など)、感情的なトーン (喜び/悲しみなど)、地方の方言 (広東語/四川語など)、調整可能な音声速度、ボーカルスタイル(ラップ、アカペラのハミングなど)をサポートします。

ベンチマークテストにおいて、Step-Audioは既存のオープンソースモデルと比較して、応答品質で19.2%、応答関連性で23.7%、事実の正確性で43.2%の改善を達成しました。特に感情理解や発話速度制御、ラップ音声などの生成制御面では、指示追従性と平均オピニオン評点がそれぞれ29.8%と27.1%向上し、複雑な音声対話シナリオにおける優位性を示しています。

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction
Step-Audio Team
Paper | GitHub

OpenAI、実世界の報酬基準でAIのエンジニアリング能力を評価する新ベンチマーク「SWE-Lancer」を発表

OpenAIの研究チームは、AIモデルのソフトウェアエンジニアリング能力を実世界の報酬基準で評価できる新しいベンチマーク「SWE-Lancer」を開発しました。

このベンチマークは、フリーランスプラットフォームUpworkから収集した1488件の実際の開発案件を評価対象としています。これらの案件は、フリーランサーに支払われた実際の報酬額に基づいており、総額100万ドルに相当します。評価では、AIモデルがこの100万ドル分のタスクをどの程度処理できるかを測定します。

評価タスクは大きく2種類に分かれています。1つは個人開発者としての技術タスクで、実際の問題に対するコード修正を生成し、プロのソフトウェアエンジニアによって作成されたエンドツーエンドテストで評価されます。もう1つは技術マネージャーとしての判断タスクで、フリーランサーから提出された複数の実装提案から最適なものを選択する能力が試されます。

研究チームは評価用データセット「SWE-Lancer Diamond」をオープンソースとして公開しています。このデータセットには、500ドル未満の基本的な修正から3万2000ドルの大規模な機能実装まで、幅広い難易度の課題が含まれています。

評価の結果、最高性能を示したAnthropicのClaude 3.5 Sonnetは、完全なデータセットにおいて100万ドルのうち約40万ドルを獲得しました。

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke
Paper | GitHub

ゲーム開発を支援するゲームプレイシーン生成AI「Muse」をMicrosoftが開発

マイクロソフトリサーチの研究チームが、ゲーム開発を支援するAIモデル「Muse」を発表しました。人間のゲームプレイから学習し、一貫性のある多様なゲームプレイシーケンスを生成できる「WHAM」(World and Human Action Model)という種類になります。

Museの学習には、イギリスのゲーム開発会社Ninja Theoryが制作したゲーム「Bleeding Edge」の膨大なプレイデータが使用されました。約50万件のゲームプレイ記録を分析し、それは7年以上分のプレイ時間に相当する規模です。

実際の評価では、生成するゲームプレイシーケンスが物理法則やゲームメカニクスにおいて一貫性を保ちながら、多様な展開を示せることが確認されました。例えば、キャラクターが壁をすり抜けたり、突然消えたりすることなく、ゲームの物理法則に従った自然な動きを生成できました。

また、同じ状況から複数の異なる展開を作り出すことができ、開発者が画面上でキャラクターや環境を編集すると、その変更が後続のシーンでも正しく反映されました。

World and Human Action Models towards gameplay ideation
Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann
Paper | Blog

ハリウッド品質の映像データで訓練したオープンソース動画生成AI「SkyReels V1」

SkyReelsチームは、人間中心の動画生成に特化したオープンソースのAIモデル「SkyReels V1」を公開しました。このモデルは、約1000万件以上の高品質な映画やテレビ番組のクリップを用いてHunyuanVideoを微調整しており、テキストから動画を生成する機能と画像から動画を生成する機能を備えています。

SkyReels V1の特徴として、33種類の表情と400以上の自然な動きの組み合わせを正確に表現できる高度な表情アニメーション機能や、ハリウッド品質の映像データで学習された映画的な構図やライティングの表現が挙げられます。生成された各フレームは、構成、俳優の配置、カメラアングルにおいて映画のような品質を実現します。

また、独自のデータクリーニングと注釈付けのパイプラインを開発し、表情分類、3D人物再構成による空間認識、アクション認識、シーン理解などの機能を実現しています。

ベンチマークテストでは、SkyReels V1は他のオープンソースのテキストから動画を生成するモデルと比較して、全体スコア82.43を達成し、特にダイナミックな動きや複数オブジェクトの処理において優れた性能を示しています。

SkyReels V1
SkyReels Team
GitHub | Hugging Face


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。