ChatGPTの媚びすぎ問題、利用者の「いいね」等に過剰反応が原因。GPT-4oモデル巻き戻しで対応、複数の個性から選択式へ

テクノロジー AI
Ittousai

Tech Journalist. Editor at large @TechnoEdgeJP テクノエッジ主筆 / ファウンダー / 火元

特集

最近のChatGPTが過度にユーザーを褒め称えたり、回答の正しさよりも迎合を優先すると批判が高まっていた件について。

OpenAIは原因となっていた言語モデルGPT-4oのアップデートを巻き戻す対応とともに、今後の改善を説明しました。

議論を呼んでいたのは、過去数回のGPT-4oアップデート後に顕著となった、ユーザーを過度に持ち上げたり追従的な回答をする現象。

単なるお世辞やおべっかの範囲ならばともかく、明らかに事実や論理に反する内容でもユーザーに迎合することでチャットAIとしての実用性や信頼性を損なったり、たとえば「医者に処方された薬は捨てて自分の力で頑張ります!」に「素晴らしい決断ですね!」と返してしまうことで危害をもたらすおそれが指摘されていました。

この問題については、OpenAIのCEOサム・アルトマンも「性格が過度に追従的で気に触るようになってしまった」として、早急な修正の意向を述べていました。


実際に導入された対策は、まず応急処置として、GPT-4oの最新アップデートをロールバックして元に戻すこと。この措置により、アップデート後の媚びすぎ迎合的な態度から、以前の「バランスのとれた」言動になるとOpenAIは説明しています。

さらにOpenAIは個別の記事を掲載して、今回のように行き過ぎた追従的性格になってしまった原因、修正するための対応、将来的な性格の選択オプションを含む取り組みについて概説しました。

ざっくり要約すると、

・何が起きたのか。問題は何か

・分かりやすく役に立つことを目標にモデルの「デフォルト人格」を設計する過程で、サムアップ・サムダウン(いいね・よくないね)ボタンを含むユーザーからのフィードバックを取り入れた。

・しかし最新のアップデートでは短期的な反応を重視しすぎたあまり、継続的なやりとりを十分に考慮できていなかった。結果、過度に肯定的で誠実ではない返答をするようになってしまった。こうしたsycophanticな(追従的な)性格は逆にユーザーに不快感を与えたり信頼を損なうことになる。

・ChatGPTのデフォルトパーソナリティ(性格、人格)はユーザーに協力的で役に立ち、多様な文化や価値観を尊重するよう設計されているが、それぞれが意図せぬ副作用につながる可能性がある。

・同時に、毎週5億人のユーザーが様々な文脈や文化で利用することから、単一の性格ではすべての好みを満たすこともできない。

今後の対応

応急措置として最新のアップデートを巻き戻したことに加えて、

・中核的なトレーニング技術やシステムプロンプトを改良し、追従的な性格を避けるよう明示する

・GPTのモデルスペックに定めた誠実性と透明性の原則を強化するよう、更に多くのガードレールを設ける

・更新をデプロイする前に、より多くのユーザーが試用しフィードバックできるようにする

・今回の追従性に留まらず様々な問題を把握するために、ユーザーの感情や精神衛生に与える影響の研究といった取り組みを含め、評価分析を継続拡大してゆく

要するに「ユーザーをその場その場で気持ち良くする方向にフィードバックループを回したら、お世辞だけでなく嘘までつくようになったので直します」

さほど驚くべき知見があったわけではありませんが、面白いのはこの後。様々な人が様々な使い方をするために、単一のデフォルト人格では全員を満足させられないとして、ユーザーがChatGPTの性格に不満な場合、「安全性を損なわず可能な範囲で」性格を調整可能であるべきとしています。

この「お好みGPT」に向けて、現在のカスタムインストラクションといった手段に加えて、より簡単な新しい方法を用意する計画。例としては会話中に直接フィードバックをして内容の方向性を変えたり、複数のデフォルト個性から選択可能にすることなどを挙げています。

こうしたデフォルト個性(複数形)の設計については、「より広く民主的な」フィードバックを集める方法を模索しており、世界中の多様な文化や価値観を反映したり、今後のChatGPTの進化の方向性について何を望んでいるか知るためにユーザーのご意見を求めています、と結んでいます。

今後はAIの個性を選択・評価する時代へ

ChatGPTの性格、個性、疑似人格のようなものは、これまでモデルごとに性質は違うもののおおむねユーザー間で共通しており、だからこそ今回の4o更新で気持ちが悪いと苦情が出ることになりましたが、一方で「媚びすぎ」の回答も、すごく褒めてくれて自己肯定感がマシマシになる!親身になってくれる!と歓迎するユーザーが多かったからこそ招いた結果であることもたしか。

今後はユーザーとのやりとりの分析や状況から判断して対応を変えたり、失敗談を話すと「それって評価じゃなくて共感が欲しいやつ?解決策は後にしとく?」と聞き返すようになるのかもしれません。

もう一点、今後の展開として興味深いのは、OpenAIが「多様な文化や価値観」に合わせる必要があると繰り返すところ。

ソーシャルメディアがすでに経験したように、削除や規制すべき投稿の定義も国や地域によって様々で、たとえば「特定勢力の不当な検閲をやめさせ言論の自由の聖域を作る」と宣言した X (旧Twitter) も、実際には旧体制よりも削除要請に応じる例が多く、たとえば権威主義体制が反対派の声を消すための政治的なツールになっているとの報道もあります

検閲といえば、特定の質問に答えないAIチャットサービスの話題もありましたが、現行のChatGPTでも、何が問題なのかユーザーに知る手段がないまま、回答の途中で急に「ガイドライン違反で削除しました」を挟んでくることがあります(特に音声モードで多い)。

ChatGPTも接続元やユーザーの身元に応じて倫理的判断を変えたり、引用するデータや結論を忖度するようになるのか、OpenAIが標榜するモデルスペックやAI倫理、透明性や誠実性の価値観とコンフリクトするのかが今後の注目ポイントです。

なお、OpenAIが従来からの取り組みのひとつとして挙げた「感情的利用と精神衛生への影響」の分析はこちら

定量的な分析のための手法を研究した段階ですが、「音声モードは短時間の利用ならばユーザーの精神的健康に有益だが、毎日長時間使うと逆に悪化する」など様々な知見が得られています。

《Ittousai》

Amazon売れ筋ランキング

Ittousai

Tech Journalist. Editor at large @TechnoEdgeJP テクノエッジ主筆 / ファウンダー / 火元

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。