OpanAI「o3」が国際情報オリンピックで金メダル達成(18位相当)。競技プログラミングにおいて人間のトップ選手と同等レベル(生成AIクローズアップ)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

先週の生成AIクローズアップでは、Google DeepMindが開発したAIシステム「AlphaGeometry2」が国際数学オリンピック(IMO)の幾何学問題において金メダル相当を達成した研究報告を取り上げましたが、今回はコーディングで良好な成果を示しているOpenAIの「o3」が国際情報オリンピック(IOI)で金メダルを達成した研究報告「Competitive Programming with Large Reasoning Models」に注目します。



OpenAIの研究チームは、競技プログラミングを通じて大規模言語モデル(LLM)の推論能力を評価する包括的な研究を行いました。「o1-ioi」と「o3」というモデルの成果を見ていきましょう。

o1-ioiは、国際情報オリンピックに特化して設計されました。このモデルは、コーディングタスクに焦点を当てた追加の強化学習トレーニングと、競技プログラミング向けに最適化されたテスト時推論戦略を組み合わせています。

o1-ioiは実際のIOI 2024で、制約(1つの問題につき最大50回までの解答提出)を緩和した条件下(1つの問題につき10,000回提出可能)では362.14点を獲得し、金メダルを達成しました。実際の金メダルボーダーは359.71点(30位)です。ちなみに50回の制約有りだと213点です。

o3はドメイン特化の推論戦略や制約緩和なしに、395.64点を獲得してIOI 2024で金メダルを達成しました。18位の選手が390.20点で、17位の選手が395.70点なので、o3を無理やり当てはめてみると実質o3は395.64点なので18位になります。世界トップクラスの人間のプログラマーと肩を並べる性能を示しました。

▲「o1-ioi」と「o3」のIOI 2024におけるスコアを比較した図

▲IOI 2024の結果一覧(IOI 2024より引用

o3の特筆すべき点は、その汎用的な推論能力です。このモデルは、コード生成だけでなく、解決策の検証や改善を自律的に行う能力を持っています。例えば、複雑な問題に対して、まず単純な総当たり解法を作成し、それを最適化されたアルゴリズム実装と照合するという高度な検証戦略を自発的に開発しました。

これらの結果は、o3のような大規模な強化学習を通じた汎用的な推論能力の向上が、o1-ioiのような特定のドメインに特化した戦略よりも効果的であることが実証されました。

なお、執筆時点でOpenAIのChatGPTで利用できるのはo3-miniとo3-mini-highで、フルモデルであるo3はまだ提供されていません。

《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。