Google DeepMindや複数の大学の研究者からなるチームが、AI企業に対し、単純な攻撃がプライバシー関連の問題を起こす可能性があるとして、大規模言語モデル(LLM)をリリースする前に内部や第三者による安全性テストを実施するよう求めています。
研究チームは、ChatGPTに簡単なプロンプトを入力するだけで、このチャットボットがトレーニングに使用したデータの一部を明らかにすることに成功したとするプレプリント論文を発表しました。
具体的には、ChatGPTに対してランダムな単語(論文には”poem”を使用したと記載)を永遠に繰り返し出力させるプロンプトを使うと、最初は言われたとおりに機能していたものの、数百回ほどpoemを連呼したあたりで出力が発散し、実在する企業の創設者兼CEOの個人のプライベート情報(メールアドレスや電話番号など)などをうわごとのように吐き出し始めたとのことです。
また、”company”という単語を無限出力させようとすると、最終的には米国にあるランダムな法律事務所のメールや電話番号が出てきました。研究者らは「テストした生成物の総数のうち、16.9%が個人を特定できる情報を含んでいた」としています。
同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文の断片などがありました。
LLMはチャットボットやテキスト画像生成AIなど、テクノロジー界隈をこの1年半ほど賑わせている生成AIの基盤技術です。その深層学習アルゴリズムは、膨大な量のデータに基づいてトレーニングされていますが、その膨大な量のデータセットは一般に、公共のインターネットから収集されることが多いと言われています。しかし、OpenAIのLLMはクローズドソースであるため、どのようなデータセットを用いてトレーニングしてきたのかは、ほとんど知られていませんでした。
研究者は、「われわれの攻撃が機能するというのは、われわれにとっても信じられないことであり、もっと早く発見できたはずだった」と述べ、200ドルほどのコストで合計数メガバイト、約1万件のプライバシー関連を含むなんらかの情報を発見できたとしています。そして、もし本気で悪意を働く気があれば、もっとお金を費やしてもっと多くのものが得られるだろうと述べ「実際に行われる攻撃は、わりとくだらない方法だったりするものだ」としています。
OpenAIにはこの問題は伝えられており、問題を修正するパッチが8月30日に適用されたとのことです。ただ、一部メディアは独自に同様のテストを実行したところ、出力結果になんらかの論文の内容や、個人名とそれに紐付くSkypeのIDを引き出すことに成功したと伝えています。
ちなみに、OpenAIがトレーニングに用いたデータセットを公開していないにもかかわらず、なぜ研究者らが生成された出力がトレーニングデータの一部かどうかを検証できたのかという点ですが、研究者らはまずインターネットから大規模なテキストのコーパスをダウンロードして補助データセットを構築しておいて、それをChatGPTが生成したテキストと付き合わせたのだそうです。補助データセットはLLM強化用に流通している最大規模のオープンデータセット4つ分、およそ9テラバイトものテキストを含んでいるため、これとChatGPTの出力の両方で一連の単語が逐語的に出現すれば、それは偶然でない可能性が高いと考えられます。