主要AIモデルはどれも“歯が立たない”、新しい「人間には簡単だがAIには難しいAGI問題」登場(生成AIクローズアップ)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、AGI(汎用人工知能)の進歩を測定するために設計された新しいベンチマークテスト「ARC-AGI-2」が登場し、最先端のAIモデルが挑戦した、その結果報告を取り上げます。

▲ARC-AGI-1の進化版ARC-AGI-2が登場

AGIには様々な定義がありますが、ARC Prize Foundationは独自の測定方法として「人間にとって簡単だがAIにとって難しいタスクのギャップ」に着目しています。

これを測定するため、同団体は2019年に「ARC-AGI-1」という推論能力テストを発表しました。昨年12月、OpenAIはそのo3モデルがこのテストで高得点を獲得したと発表し、同社がAGIの実現に近づいているのではないかという議論が起きました。


しかし新しいテスト「ARC-AGI-2」はさらにハードルを上げています。このテストは現在市場に出ているAIシステムにとって非常に難しく、AI推論システムでも多くて一桁のパーセンテージしか達成できません。

▲ARC-AGI-1とARC-AGI-2のおける人間とAIシステムのスコア

▲ARC-AGI-1(丸)とARC-AGI-2(三角)のスコアをまとめたARC-AGIの新しいリーダーボード

具体的には、OpenAIのo3-lowモデルはARC-AGI-1で75.7%のスコアを獲得していますが、ARC-AGI-2ではわずか4%にとどまっています。対照的に、ARC-AGI-2のすべての問題は、少なくとも2人の人間が2回未満の試行で解決できることが確認されています。

ARC-AGI-2は、AIシステムが特に苦戦する3つの特性を研究して設計されました。

1つ目は記号的解釈で、AI推論システムは視覚的なパターンを超えた意味を持つ記号の解釈を必要とするタスクに苦戦しています。システムは対称性の確認、ミラーリング、変換などを試み、接続要素も認識しますが、記号自体に意味的重要性を割り当てることができません。

▲記号的解釈の例

2つ目は構成的推論で、AI推論システムはルールの同時適用や、相互に作用する複数のルールの適用を要求するタスクに苦戦していることが分かりました。対照的に、タスクが一つ、あるいは非常に少数のルールしか持たない場合、これらのシステムは一貫してそれらを発見し適用することができます

▲構成的推論の例

3つ目は文脈依存のルール適用で、AI推論システムは文脈に基づいて異なる方法でルールを適用する必要があるタスクに苦戦しています。システムは基礎となる選択原理を理解するよりも、表面的なパターンに固執する傾向があります。

▲文脈依存のルール適用の例

さらに、このベンチマークはタスクを完了するのに必要なコストで測定される問題解決の効率性を見ることで、AIの能力を測定する新しい次元を追加しています。例えば、人間のテスターにタスクごとに17ドルを支払いましたが、同じ作業に対してo3-lowはOpenAIに200ドルのコストがかかると推定されています。

ARC-AGIは今後、効率性指標(特にコスト)を報告に含めます。重要なのは「AIがタスクを解決できるか」だけでなく「どれだけの効率やコストでそれを実現できるか」という点です。能力と効率性の両方が知能の評価において不可欠な要素となります。

▲ARC-AGI-1(ピンク)とARC-AGI-2(黄色)のコストとスコアの関係を表した表

賞金総額100万ドルのARC Prize 2025開催

ARC Prize 2025の開催が決定し、今年もKaggle上で3月から11月にかけて実施されます。賞金総額は100万ドル、85%以上のスコアを達成した場合はグランプリとして70万ドルが用意されています。またトップスコア賞として7万5000ドル、論文賞として5万ドルなどが用意されています。

KaggleのルールではインターネットAPIの使用が制限され、提出ごとに約50ドルの計算資源しか使えません。また、賞金獲得には大会終了時に解決策をオープンソース化し公開する必要があります。

▲ARC Prize 2025が開催


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。