DeepSeek-R1のサイズ80%削減の1.58ビット量子化版が登場、DeepSeekの新画像生成AI「Janus-Pro」、Suno級オープン音楽生成AI「YuE」など生成AI技術5つを解説（生成AIウィークリー）

OpenAIのo1推論モデルに匹敵するオープンウェイトモデルとして注目を集めている「DeepSeek-R1」について、Unslothチーム（エンジニアのDaniel Han氏とMichael Han氏の兄弟チーム）は671Bパラメータのモデルを効率的に量子化することに成功し、元の720GBから131GBまで80%のサイズ削減を実現したと発表しました。

単純にすべての層を量子化すると精度が低下する問題が発生してしまうため、同チームは選択的な量子化アプローチを採用しました。具体的には、モデルの重要な部分を4ビットや6ビットなどの高いビット数で量子化する一方、モデル全体の約88%を占めるMoE層を主に1.5ビット程度で量子化することで、モデル全体として平均1.58ビットの効率的な量子化を実現しました。このような動的量子化アプローチによって、高い軽量化を実現しつつ、実用的な性能レベルを維持したモデルが可能になりました。

Alibaba Cloudは、20兆以上のトークンで事前学習を行った大規模MoEモデル「Qwen2.5-Max」を発表し、APIを通じて一般提供を開始しました。このモデルは、多くのベンチマークでDeepSeek V3を上回る性能を示しています。

さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」（第81回）では、DeepSeekの画像生成AI「Janus-Pro」と、Sakana AIによるLLMの知識を小規模モデルに転移させる蒸留法「TAID」を取り上げます。

また、アリババの画像理解能力が高いマルチモーダルAI「Qwen2.5-VL」や、歌詞から楽曲を生成するオープンソースの音楽AIモデル「YuE」をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、OpenAIがリリースした「o3-mini」を単体記事で掘り下げています。

OpenAI「o3-mini-high」でゲーム生成祭り　o1より高速、低料金、コーディング能力が高く気軽に生成（生成AIクローズアップ） | テクノエッジ TechnoEdge

今回は、OpenAIが1月31日（現地時間）に発表した「o3-mini」を取り上げます。

https://www.techno-edge.net/article/2025/02/03/4072.html続きを読む »

DeepSeek、画像生成AI「Janus-Pro」を公開。DALL-E 3やStable Diffusion 3 Mediumを超える性能

DeepSeekが新しい画像生成AI「Janus-Pro」を発表しました。このモデルは1.5Bと7Bという2つのサイズで展開され、画像の理解と生成の両方の能力を備えています。

Janus-Proは、先行モデルのJanusを3つの面で大きく改良しています。まず、トレーニング戦略を最適化し、より効率的な学習を実現しました。次に、学習データを大幅に拡充し、画像とテキストの理解力を高めるためのデータを約9,000万件、画像生成の品質向上のための高品質な訓練データを約7,200万件追加しました。さらに、モデルのサイズを拡大することで、より高度な処理が可能になりました。

トレーニングは3段階で行われ、各段階で異なる焦点を当てています。第一段階では基本的な画像処理能力の向上に取り組み、第二段階ではテキストから画像を生成する能力の強化に注力しました。最終段階では、様々な種類のデータをバランスよく組み合わせることで、総合的な性能の向上を実現しています。

性能評価では、Janus-Pro-7Bにおいて、画像とテキストの理解力を測るMMBenchというテストで高いスコアを記録し、既存の主要なモデルを上回りました。また、テキストの指示に基づいて正確に画像を生成する能力を評価するGenEvalでも高い精度を達成し、DALL-E 3やStable Diffusion 3 Mediumといった強力なモデルの性能を超えています。

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
Xiaokang Chen, Zhiyu Wu, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan
Paper | GitHub

Sakana AI、LLMの知識を小規模モデルに転移させる知識蒸留の新手法「TAID」発表

近年、大規模言語モデル（LLM）は日常的な対話から数学やコーディングまで、人間と同等のレベルでこなせるようになっています。しかし、これらのモデルの開発と活用には莫大な計算資源が必要となり、大きな課題となっています。

この課題に対して、Sakana AIは小規模で高性能な言語モデル（SLM）を効率的に構築するための新手法「TAID」を開発しました。TAIDは、LLMの知識を小規模モデルに転移させる「知識蒸留」の新しい手法で、学習過程に応じて段階的にLLMの知識を転移させる特徴があります。この手法は、生徒モデルの学習進度に合わせて教師モデルを段階的に変化させることで、より効果的な知識の転移を実現しています。

この技術を用いて開発された「TinySwallow-1.5B」は、32BパラメータのLLMから1.5BパラメータのSLMへと知識を転移し、同規模のモデルの中で最高性能を達成しています。さらに、小規模であるため、APIなどを介さずにスマートフォンやPCで直接チャットが可能となっています。従来の手法では教師モデルが大きくなると性能が低下する傾向がありましたが、TAIDではそのような問題を克服し、教師モデルの大きさに比例して生徒モデルの性能が向上することが確認されています。

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
Paper | GitHub | Blog | Hugging Face

画像処理能力が高いマルチモーダルAI「Qwen2.5-VL」を中国アリババが発表

中国アリババのQwenチームは、前バージョン「Qwen2-VL」から画像処理能力を大幅に向上させた新しいAIモデル「Qwen2.5-VL」をリリースしました。このモデルは3B、7B、72Bの3つのサイズで提供されています。

Qwen2.5-VLは、花や鳥、魚、昆虫などの一般的な物体の認識だけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトの分析に優れた能力を持っています。また、ラップトップやスマートフォンの操作が可能な視覚エージェントとして機能し、1時間を超える長時間の動画を理解し、関連する動画セグメントを特定することができます。

画像内のオブジェクトの位置を正確に特定する機能も備えており、バウンディングボックスやポイントを生成して座標や属性を安定したJSON形式で出力することができます。さらに、請求書やフォーム、表などのスキャンデータの内容を構造化された形式で出力することができ、金融や商業などの分野での活用が期待されています。

性能面では、フラッグシップモデルのQwen2.5-VL-72B-Instructが大学レベルの問題や数学、文書理解、一般的な質問応答、動画理解、視覚エージェントなど、さまざまなベンチマークで競争力のある性能を達成しています。特に文書や図表の理解において大きな優位性を持ち、タスク固有の微調整なしで視覚エージェントとして機能することができます。

Qwen2.5-VL
Qwen team
GitHub | Blog | Hugging Face

歌詞からボーカルと伴奏を含む楽曲を生成するオープンソースの音楽AIモデル「YuE」

これまでテキストを条件とした音楽生成モデルは、非ボーカル音楽の短いクリップに対して高品質な結果を生み出してきましたが、ボーカルパートと伴奏パートの両方を含む数分間の楽曲全体を生成することは依然として課題となっており、いくつかのクローズドな商用システムでのみ満足のいく結果が確認されている状況でした。

中国の研究チームは、クローズドモデルに匹敵する、音声生成AIオープンソースモデル「YuE」を発表しました。このモデルは、歌詞からボーカルと伴奏の両方のパートを含む数秒から数分間（最長5分）の楽曲を生成することができます。多様なジャンルに対応し、英語、中国語、日本語、韓国語と複数の言語での楽曲生成が可能となっています。

YuEは、2つの言語モデルを組み合わせて構成されています。1つ目は7Bパラメータを持つ言語モデルで、テキストラベル付きの意味豊かな音声・音楽トークン1.6兆個を学習しています。2つ目は1Bパラメータの言語モデルで、より細かな音楽要素を取り入れるために残差トークン2.1兆個を学習対象としています。さらに、敵対的生成ネットワーク（GAN）を使用して、音声を44.1kHzにアップサンプリングすることで、高品質な音声出力を実現しています。

歌えるAI作曲ソフトにオープンソースの波。SunoとUdioのライバル「YuE」は日本語楽曲にも対応（CloseBox） | テクノエッジ TechnoEdge

オープンソース版でSuno並に品質が高くて歌もうたえるAI作曲ソフト「Yue」をMultimodal Art Projectionと香港科技大学（HKUST）が共同開発しました。

https://www.techno-edge.net/article/2025/01/28/4053.html続きを読む »

オープンソースAI作曲ソフトがインストール出来るヤァヤァヤァ！。話題の「YuE」を自分のPCに入れて日本語ボーカル曲を生成してみた（CloseBox） | テクノエッジ TechnoEdge

中国開発のオープンソース謳うAI作曲ソフト「YuE」。まだ謎が多いですが、自宅のPCにインストールして楽曲を生成できたので、そのAI作曲体験をまとめました。

https://www.techno-edge.net/article/2025/01/29/4057.html続きを読む »

YuE: Open Music Foundation Models for Full-Song Generation
Ruibin Yuan, Hanfeng Lin, Shawn Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Lijun Yu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Tianhao Shen, Ziyang Ma, Shangda Wu, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaohuan Zhou, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Yiming Liang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Stephen Huang, Wei Xue, Xu Tan, Yike Guo
Project | GitHub

DeepSeek-R1のサイズ80%削減の1.58ビット量子化版が登場、DeepSeekの新画像生成AI「Janus-Pro」、Suno級オープン音楽生成AI「YuE」など生成AI技術5つを解説（生成AIウィークリー）

山下裕毅（Seamless）

特集

DeepSeek、画像生成AI「Janus-Pro」を公開。DALL-E 3やStable Diffusion 3 Mediumを超える性能

Sakana AI、LLMの知識を小規模モデルに転移させる知識蒸留の新手法「TAID」発表

画像処理能力が高いマルチモーダルAI「Qwen2.5-VL」を中国アリババが発表

歌詞からボーカルと伴奏を含む楽曲を生成するオープンソースの音楽AIモデル「YuE」

山下裕毅（Seamless）

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

【5月20日開催】AIグラビアからヴァイブコーディングまで、生成AIの最新動向を解説するテクノエッジ主催イベント

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【アリエクの賢い使い方ガイド】期間限定セールまとめ。先着順クーポン・プロモコードあり

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

山下裕毅（Seamless）

特集

DeepSeek、画像生成AI「Janus-Pro」を公開。DALL-E 3やStable Diffusion 3 Mediumを超える性能

Sakana AI、LLMの知識を小規模モデルに転移させる知識蒸留の新手法「TAID」発表

画像処理能力が高いマルチモーダルAI「Qwen2.5-VL」を中国アリババが発表

歌詞からボーカルと伴奏を含む楽曲を生成するオープンソースの音楽AIモデル「YuE」

SHARE THE STORY この記事をみんなにシェア

山下裕毅（Seamless）

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中