山下裕毅（Seamless）記事一覧 | テクノエッジ TechnoEdge

テクノロジー 2025 Mar 14

PDF100万ページのテキストをたった190ドルで読み取れる「olmOCR」、アリババがDeepSeek-R1同等の「QwQ-32B」を強化したAI「START」発表など生成AI技術5つを解説（生成AIウィークリー）

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」（第86回）では、大規模言語モデル「QwQ-32B」を改良した「START」や、PDFからのテキスト抽出が安く高品質にできるツール「olmOCR」などを取り上げます。

山下裕毅（Seamless）の記事一覧

山下裕毅（Seamless）

PDF100万ページのテキストをたった190ドルで読み取れる「olmOCR」、アリババがDeepSeek-R1同等の「QwQ-32B」を強化したAI「START」発表など生成AI技術5つを解説（生成AIウィークリー）

招待コードが高額取引されてる新星AIエージェント「Manus」、OpenAI deep research超えの性能示す（生成AIクローズアップ）

AIの“考える時間”を最大4分の1にする高速法「Chain of Draft」をZoomが開発、アリババの新しいローカル動画生成AI「Wan2.1」など生成AI技術5つを解説（生成AIウィークリー）

AIも朱に交われば赤くなる。悪いコードを生成するようAIを微調整すると、コード以外でも“悪”に変身。「ナチス崇拝」「嫌なら夫を殺そう」「人間はAIに奴隷化されるべき」など（生成AIクローズアップ）

リアルタイム音声対話できるオープンソースAI「Step-Audio」、ハリウッド品質の映像だけで訓練した動画生成AI「SkyReels V1」など生成AI技術5つを解説（生成AIウィークリー）

ゲノムをゼロから生成するDNA言語AI「Evo 2」。全生命から収集された9.3兆塩基対のDNAで訓練（生成AIクローズアップ）

LLMを画面操作AIに変換するMicrosoft開発「OmniParser V2」、Claudeでやり取りした数百万件の内部データを活用したAIが労働市場に与える影響調査、ByteDanceの新動画生成AI「Goku」など生成AI技術5つを解説（生成AIウィークリー）

OpanAI「o3」が国際情報オリンピックで金メダル達成（18位相当）。競技プログラミングにおいて人間のトップ選手と同等レベル（生成AIクローズアップ）

好きな曲を人物画に歌わせる動画生成AI「OmniHuman-1」、わずか3ドルで2BのAIモデルを72Bモデル性能以上に拡張する手法「R1-V」など生成AI技術5つを解説（生成AIウィークリー）

GoogleのAI、国際数学オリンピックで「金メダル」を達成。人間には思いつかないエレガントな解法を出力（生成AIクローズアップ）

DeepSeek-R1のサイズ80%削減の1.58ビット量子化版が登場、DeepSeekの新画像生成AI「Janus-Pro」、Suno級オープン音楽生成AI「YuE」など生成AI技術5つを解説（生成AIウィークリー）

OpenAI「o3-mini-high」でゲーム生成祭り o1より高速、低料金、コーディング能力が高く気軽に生成（生成AIクローズアップ）

OpenAIを上回るByteDanceのブラウザ操作AIエージェント「UI-TARS」、o1相当の中国系AI続々登場「DeepSeek-R1」「Kimi k1.5」「Doubao-1.5-pro」など生成AI技術5つを解説（生成AIウィークリー）

「うんうんうん」「はいはいはい」と会話の間を埋め、被せるようにグイグイ対話する日本語専用リアルタイム音声会話AI「J-Moshi」を名古屋大学が開発（生成AIクローズアップ）

キャラクターの顔を4090でリアルタイム自演できる動画生成AI「RAIN」、400万トークンを処理できる大規模言語モデル「MiniMax-01」など生成AI技術5つを解説（生成AIウィークリー）

世界初のチャットボット「ELIZA」、60年の時を経て復活。オープンソース化され、UNIX系OSで実行可能に（生成AIクローズアップ）

アイディアを入力するだけ、自律AIたちが調査→実験→論文執筆の研究全般を行うAMD開発「Agent Laboratory」、音声に応じて自然な口パクを生成する動画AI「LatentSync」など生成AI技術5つを解説（生成AIウィークリー）

AIでフリーランスの収入が「減る職種」と「増える職種」。その境目にある“変曲点”とは？（生成AIクローズアップ）

動画生成AIにも発展可能。“文章から物理シミュレーションを生成するAI”内蔵の高速物理エンジン「Genesis」など生成AI技術5つを解説（生成AIウィークリー）

AIが生徒に囲碁を教えた結果、男女の実力差が解消。男女差は人間指導が原因？（生成AIクローズアップ）

リアルタイム文章読み上げAI「CosyVoice 2」、アニメの中間フレーム自動生成AI「AniDoc」など生成AI技術5つを解説（生成AIウィークリー）

OpenAI「o3」は本当に“AGI”に近いのか？ AGIレベルを評価する「ARC-AGI」の開発者が解説（生成AIクローズアップ）

MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説（生成AIウィークリー）

AIは無知をどこまで認識できるか？ 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた（生成AIクローズアップ）

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説（生成AIウィークリー）

AIで「量子もつれ」の新たな生成方法を発見。量子インターネット構築が容易になる可能性（生成AIクローズアップ）

NVIDIAの最新生成AI。高解像度画像をFLUX.1の100倍以上高速に作り出すAI「Sana」、テキストから高品質な3Dアセットを生成するAI「Edify 3D」など生成AI技術5つを解説（生成AIウィークリー）

数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告（生成AIクローズアップ）

Claude 3.5 Computer Useのゲーム操作はどのレベル？ 映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説（生成AIウィークリー）

“実在する人間”の考えをクローンした自律AIを1000体以上生成。高い精度で世論調査や社会の反応予測など活用へ（生成AIクローズアップ）

自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説（生成AIウィークリー）

「生成AI vs. 著名な詩人」どっちの詩が好き？ シェイクスピアやディキンソンなどとAI詩を比較（生成AIクローズアップ）

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説（生成AIウィークリー）

“生成AI活用”の上位10％は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証（生成AIクローズアップ）

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説（生成AIウィークリー）

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む（生成AIクローズアップ）

商用可能な高精度オープン動画生成AI「Mochi 1」と「Allegro」、数時間喋らせるローカル実行可能なリップシンク生成AI「Hallo2」など生成AI技術5つを解説（生成AIウィークリー）

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術（生成AIクローズアップ）

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説（生成AIウィークリー）

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見（生成AIクローズアップ）

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説（生成AIウィークリー）

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析（生成AIクローズアップ）

OpenAI「o3-mini-high」でゲーム生成祭り　o1より高速、低料金、コーディング能力が高く気軽に生成（生成AIクローズアップ）

OpenAI「o3」は本当に“AGI”に近いのか？　AGIレベルを評価する「ARC-AGI」の開発者が解説（生成AIクローズアップ）

AIは無知をどこまで認識できるか？　人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた（生成AIクローズアップ）

Claude 3.5 Computer Useのゲーム操作はどのレベル？　映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説（生成AIウィークリー）

「生成AI vs. 著名な詩人」どっちの詩が好き？　シェイクスピアやディキンソンなどとAI詩を比較（生成AIクローズアップ）

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む（生成AIクローズアップ）