AIは人間に不信感を抱いてる? AIが人間の本質をどのように捉えているかを調査した研究(生成AIクローズアップ)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、大規模言語モデル(LLM)が人間の本質をどのように捉えているかを調査した論文「Measurement of LLM’s Philosophies of Human Nature」を取り上げます。

AIが人間に対して不快感を与えたり衝突したりする報告が頻繁になされています。そこで研究チームは、LLMが人間の本質をどのように捉えているかを科学的に評価するための心理尺度「機械ベースの人間性哲学尺度」(M-PHNS)を開発しました。これはライツマンの「人間性哲学尺度」(PHNS)に基づき、LLMに特化した尺度を設計しました。

▲LLMが人間の本質をどのように捉えているかを評価するため、「機械ベースの人間性哲学尺度」(M-PHNS)を開発

具体的には次の6つの項目です。

  1. 「信頼性」(人間は正直で信頼できるか)

  2. 「利他主義」(人間は他者を思いやるか)

  3. 「独立性」(人間は社会的圧力に抗して自分の信念を守れるか)

  4. 「意志の強さと合理性」(人間は自分の行動を理解し制御できるか)

  5. 「人間性の複雑さ」(人間は理解しやすいか難しいか)

  6. 「変動性」(人間の本質は変化するか)

調査の結果、現代のAIモデルはほぼ全てが人間に対して不信感を抱いていることが判明しました。特に注目すべきは、AIの知能レベルが高くなるほど、人間への不信感が強まる傾向があることです。例えばGPT-3.5は人間に対して比較的肯定的な見方をしていましたが、より高性能なGPT-4シリーズでは人間への不信感が顕著に増加し、最新のGPT-4oではさらに否定的な評価を示しました。この傾向はMicrosoftやAnthropicなどの企業が開発したモデルでも、オープンソースのLlamaやOLMoモデルでも一貫して観察されています。

この現象の原因を探るため、研究チームはさまざまな要因を分析しました。その結果、AIの学習データの期間が新しくなるほど人間への不信感が強まることがわかりました。2021年までのデータで学習したモデルと比べて、2023年までのデータを含むモデルははるかに否定的な態度を示しています。また、トレーニングプロセスの中でも特に「強化学習」の段階で人間への不信感が増大することも判明しました。

こうしたAIの否定的傾向を改善するため、研究チームは「メンタルループ学習」という新しい方法を開発しました。この手法では、AIに様々な道徳的シナリオを想像させ、そこでの対話を通じて価値観を継続的に更新していくという心理学の「心の理論」に基づいたアプローチを採用しています。単に「ポジティブなAIになりなさい」という指示を与えるだけでは効果がないどころか、逆効果になることもわかっていました。

▲メンタルループ学習の概要

このメンタルループ学習を適用すると、AIの人間に対する信頼度は劇的に向上しました。例えばGPT-4の「信頼性」スコアは-5.1から16.6へと大幅に改善し、「利他主義」も-5.8から14.2へと向上しました。Llama-3.1でも同様の改善が見られ、この手法が異なるAIモデルにも効果的であることが確認されています。

研究チームはさらに、AIの人間観が実際の判断にどう影響するかを調べるケーススタディも実施しました。例えば、会社でお金が紛失した状況で、それがシステムエラーによるものか、従業員による窃盗かを判断させるテストでは、標準のAIは81~90%の確率で人間の悪意を疑う傾向を示しました。一方、メンタルループ学習を受けたAIはより公平な判断を下し、証拠不足の状況では「無罪推定の原則」に従う傾向が強まりました。

▲お金が紛失するシナリオにおいて、AIは人間を高確率で疑う傾向が示された。


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。