1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
先週の生成AIクローズアップでは、Google DeepMindが開発したAIシステム「AlphaGeometry2」が国際数学オリンピック(IMO)の幾何学問題において金メダル相当を達成した研究報告を取り上げましたが、今回はコーディングで良好な成果を示しているOpenAIの「o3」が国際情報オリンピック(IOI)で金メダルを達成した研究報告「Competitive Programming with Large Reasoning Models」に注目します。
OpenAIの研究チームは、競技プログラミングを通じて大規模言語モデル(LLM)の推論能力を評価する包括的な研究を行いました。「o1-ioi」と「o3」というモデルの成果を見ていきましょう。
o1-ioiは、国際情報オリンピックに特化して設計されました。このモデルは、コーディングタスクに焦点を当てた追加の強化学習トレーニングと、競技プログラミング向けに最適化されたテスト時推論戦略を組み合わせています。
o1-ioiは実際のIOI 2024で、制約(1つの問題につき最大50回までの解答提出)を緩和した条件下(1つの問題につき10,000回提出可能)では362.14点を獲得し、金メダルを達成しました。実際の金メダルボーダーは359.71点(30位)です。ちなみに50回の制約有りだと213点です。
o3はドメイン特化の推論戦略や制約緩和なしに、395.64点を獲得してIOI 2024で金メダルを達成しました。18位の選手が390.20点で、17位の選手が395.70点なので、o3を無理やり当てはめてみると実質o3は395.64点なので18位になります。世界トップクラスの人間のプログラマーと肩を並べる性能を示しました。

▲「o1-ioi」と「o3」のIOI 2024におけるスコアを比較した図

▲IOI 2024の結果一覧(IOI 2024より引用)
o3の特筆すべき点は、その汎用的な推論能力です。このモデルは、コード生成だけでなく、解決策の検証や改善を自律的に行う能力を持っています。例えば、複雑な問題に対して、まず単純な総当たり解法を作成し、それを最適化されたアルゴリズム実装と照合するという高度な検証戦略を自発的に開発しました。
これらの結果は、o3のような大規模な強化学習を通じた汎用的な推論能力の向上が、o1-ioiのような特定のドメインに特化した戦略よりも効果的であることが実証されました。
なお、執筆時点でOpenAIのChatGPTで利用できるのはo3-miniとo3-mini-highで、フルモデルであるo3はまだ提供されていません。