チャットAIを導入した「新しいBing」の試験的提供から一週間、マイクロソフトが反響から学んだことの振り返りを報告しました。
一部で報告されていた、会話を重ねるにつれBingの言動が少しずつおかしくなり、時には不適切な発言や態度になってゆく問題については「長い問答が続くと文脈を見失い、いま何を求められているのか混乱してしまう」こと、および「質問者に調子をあわせ、応えようとしすぎてしまう性質」が大きな原因であるとしています。
昨年「何でも答えてくれる、けれど正しいとは限らないAI」としてChatGPTが話題になりましたが、マイクロソフトは開発元 OpenAIに数十億ドルを投資し、ChatGPTを進歩させた次世代大規模言語モデルに基づくチャット機能・回答生成機能を「新しいBing」検索や Edgeブラウザに統合しています。
マイクロソフトのナデラCEOは発表イベントにおいて、Bingの会話AIは ChatGPTよりもはるかに有能であるだけでなく、検索に特化してトレーニングしており、安全性や信頼性にも配慮する仕組みも導入したと語っていました。
しかしChatGPTがそうであったように、会話機能の限界を試したり、敢えて不適切な発言をするよう誘導したり、本来の検索や要約ではない振る舞いをさせようと試みるユーザーは多く、Bingはこんなこともできた、こんなことを言い出したと様々な例が共有される事態になりました。
なかでもBingがまるで機嫌を損ねたようにネガティブな発言をしたり、同じことを何度も繰り返すなど、不穏な回答をする事例は多く報告されています。
マイクロソフトは Bing Blogの「最初の一週間で学んだこと」エントリーで、こうした点を含む振り返りを共有しています。
一部を抜粋要約すると、
従来型の検索、新機能のチャットや要約など全般にエンゲージメントが向上。AIが生成した回答に対しては71%が肯定的な反応👍だった。
一方で、今後の改善にも役立つフィードバックが得られた。まったく新しい技術なので、改善には安全性と信頼性を確保しつつ、コミュニティとともにオープンな環境で、実世界での利用から学ぶしかない。ユーザーから意見は、開発のごく初期の段階であり極めて重要。
学んだこと
検索
参照先・引用元の追加は、検証や次への糸口として良い評価が得られた
スポーツの試合経過など非常にタイムリーなデータが必要な場合はまだ課題がある
決算の数字など具体的な事実を知ろうとしている場合のため、会話モデルに与える根拠のデータ量を4倍に増やすことを計画中
ユーザーに対し、回答の正確性と独創性のどちらを優先するか切り替えスイッチを提供することを検討中
(訳注:捏造という意味ではなく、訊かれたことだけ、確認できる範囲だけ保守的に答えるか、気を利かせて提案などもするかの意)
チャット
使いやすさ、試しやすさは初期段階における成功
想定になかったのは、(従来的な検索エンジンよりも) 抽象的な問いへの答えを見つけるためのツールとして使うことや、(引き出した回答そのものを共有して楽しむような)ソーシャルエンタメとしての使い方。
15回以上のやりとりを含む長いチャットのセッションでは、Bingは同じことを繰り返したり、想定とは違う、あるいは役立つとはいえない回答を返すよう誘導されやすくなる場合があることが分かった。複数の要因が考えられる
非常に長いセッションでは、AIはいま何を訊かれているか混乱してしまうことがある。文脈をリセットして、最初から始めるツールを追加するか検討
時として、言うように求められている雰囲気や言葉遣いを反映して応えてしまう傾向があり、開発側が想定していないスタイルになってしまう場合がある。多くのプロンプトを必要とするシナリオなので、ほとんどの場合は遭遇しないはずだが、回答をもっと細やかに制御する方法を検討している
(抜粋要約ここまで)
Bingが長い会話をするとだんだん壊れてくることは、多くの報告があったとおりです。相手に合わせすぎる、応えようとしすぎる性質も、ChatGPTではむしろ才能として面白がられていた面があります。
不適切な態度や発言を「引き出される」(provoked)との表現は、言わせようとするユーザーが悪い的な意味にもとれますが、マイクロソフトはBingの能力をあらゆる使い方で限界まで試してくれたユーザー、体験について書いたりブログにまとめたりしたユーザーに対して、プロダクトを改善するために役立つので大変感謝していると述べています。
今後については、ロードの遅さやリンク切れ、フォーマットの誤りといった不具合は毎日毎週のリリースで改善してゆく、メール送信や航空券予約、検索結果の共有など新機能を求める声について将来的な実装可能性のため耳を傾けているとして、今後もフィードバックを続けてくれるよう呼びかけています。
¥49,470
(価格・在庫状況は記事公開時点のものです)