AIに「逆転裁判」をプレイさせ、推論能力が一番高かったのはどのLLM？（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、AIモデルに「逆転裁判」をプレイさせて推論能力を調査した内容を取り上げます。

カリフォルニア大学サンディエゴ校に所属する研究室「Hao AI Lab」は、AIの推論能力をテストするために人気ゲーム「逆転裁判」に目を向けました。最新のAIモデルを逆転裁判でテストし、どのAIモデルの推論能力が高いかを調査しました。

▲AIモデルに逆転裁判をプレイさせることで推論能力を評価する

逆転裁判は複雑なストーリーと法廷劇で知られるゲームです。プレイヤーは手掛かりをつなぎ合わせ、矛盾を暴き、真犯人を明らかにするよう挑戦します。

このタスクがAIにとって難しい理由は主に3つあります。1つ目は「長文脈推論」です。AIは以前の対話や証拠を参照して矛盾を見つける必要があります。2つ目は「視覚的理解」で、偽りの主張を反証するために正確な画像を特定しなければなりません。3つ目は「戦略的意思決定」です。単に回答するだけでなく、動的に変化する事件の中でいつ質問を続け、いつ証拠を提示し、いつ待つかを決定しなければなりません。

▲Claude 3.7が逆転裁判をプレイしている様子

テストしたAIモデルは、OpenAI o1、GPT-4.1、Gemini 2.5 Pro、Gemini-2.0-flash-thinking-exp、Claude 3.7 Sonnet-thinking、Claude 3.5 Sonnet、deepseek-r1、Llama-4- Maverickです。

▲複数のAIモデルが逆転裁判をプレイしている様子

結果は、o1とGemini 2.5 Proが他を凌駕して優れたパフォーマンスを示しました。最も難しいケースへの対応においては、o1がGemini 2.5をわずかに上回りました。

▲各種AIモデルの精度を比較したグラフ

コストの面では、Gemini 2.5 Proは非常に効率的でした。o1と同等の性能でありながら、ケースによっては6～15倍も安く利用できます。o1はAPI呼び出し回数が最も少なかったにもかかわらず、最もコストが高くなりました。特に長いケースであるレベル2では、o1が45.75ドルかかったのに対し、Gemini 2.5 Proはわずか7.89ドルで処理できました。