1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、実在する人の性格や考えを忠実にコピーしたAIエージェント(自律AI)を1000体以上生成した論文「Generative Agent Simulations of 1,000 People」に注目します。
昨年、スタンフォード大学とGoogleに所属する研究者らはシミュレーション環境に創った25体の自律AIを導入し、自律AIが人間関係を形成し、記憶を作り、独自の個性を育むようにしました。連載「生成AIウィークリー」でも取り上げました。
上記メンバーとほとんど同じメンバーが発表した今回紹介する研究は、1000人以上の実在する人の思考パターンと行動を分析してコピーした自律AIを1000体以上創り上げた内容になります。以前の研究では架空の性格を創り上げていましたが、今回は実在する人の考えを複製(クローン)した自律AIになります。
そのため、参照した各個人に対して2時間のインタビューを実施し、そのデータを基に一人一人の行動や思考をシミュレートできるように創り込みました。
(▲1000人以上の参加者に対して2時間のインタビューを実施し、性格を抽出し、これらの個人の態度や行動を再現する自律AIを作成した)
研究チームはまず、アメリカ社会の縮図となるように、年齢、性別、人種、居住地域、教育レベル、政治的立場などを考慮して1052人の参加者を慎重に選びました。各参加者は、AIによるインタビュアー(GPT-4o)と2時間の音声対話を行い、その中で自身の人生経験や社会問題に対する考え方などを詳しく語りました。
(▲AIインタビュアーとユーザーの会話インタフェース)
収集したインタビューデータを使って創られたAIエージェントの性能は、社会科学で広く使用される複数の指標を用いて厳密に評価されました。具体的には、社会調査の標準として知られるGeneral Social Survey(GSS)、性格特性を測定するBig Five検査、経済的な意思決定を調べる各種実験などが用いられました。
評価結果は、例えばGSSでの回答予測において、自律AIは元の参加者(人間)が2週間後に同じ質問に答えた際の一貫性と比較して、85%という高い精度を達成しました。
また、Big Five性格特性の予測では80%の正確さを、経済的な意思決定では66%の精度を記録しました。
特に注目すべき点は、このシステムが単なる人口統計データや簡単な人物描写ではなく、詳細なインタビューデータを用いることで、より正確な予測を可能にしたことです。これにより、人種や政治的立場による予測精度の偏りも大幅に減少させることができました。
活用方法としては、政策に対する社会の反応や世論調査、製品のマーケティング調査に使ったりなど、世間の指標として使える可能性があります。