ChatGPT開発元、AI生成か人間が書いた文か判定するAIツール提供「誤判定や偽陽性に注意」

人間が書いたかのような文を生成できる対話型AI ChatGPTの開発元 OpenAI が、AIによって生成された文章か人間が書いたか判定するツールを公開しました。

シンプルに「Classifier」(分類器)と呼ばれるツールは改良中の段階ながら、OpenAIのサイトから無料で利用できます。ChatGPTと同じく、アカウントの作成とログインは必要です。

文章をClassifier にコピペすると(あるいは自分が本当に人間なのか実はAIか確信が持てないなら手入力すると)、AIによって生成された可能性が「極めて低い、低い、不明確、可能性がある、可能性が高い」のいずれかを判定します。

OpenAIが判定ツールを開発する目的は、AIを使った世論誘導や情報操作、教育・学術分野での不正行為など、自動生成した文章を人間が書いた意見や感想、論文や宿題と偽る行為による害を軽減する手助けとするため。

……安価な銃を流通させて治安を悪化させたあと防弾ベストや警備サービスを売るビジネスを連想しないでもありませんが、Classifier の利用は(現在のところ)無料。ChatGPT専用というわけではなく、他社製も含めたAI生成文一般を対象としています。

さらにいえば、銃や核兵器と違いソフトウェアは拡散や利用を規制することが難しく、特に文章生成AIは仕組みが公知で活発に研究されていること、大きな計算資源も通信も必要とせず比較的容易に動かせることから、ひとたび解き放たれたものをなかったことにするのは困難です。

ただし、OpenAIみずから work in progress と述べるように、Classifier による判定は完全に信頼できるものではありません。

英語の文章を使ったテストでは、26%について正しく「AIが生成した可能性が高い」と判定した一方、人間が書いた文章についても9%は誤ってAI生成と判定しています(いわゆる偽陽性)。

このため、今回公開したClassifierによる判定結果を実世界での判断の主要な根拠としないよう警告し、ほかの方法と併用する補助的な道具に留めるよう求めています。

OpenAIによれば、判定の精度は文章が長いほど改善します。総合的には、2021年にGPT-2世代で提供した検出コードよりも大幅に信頼性は向上しているとのこと。

このほか現時点での制約は、

短いテキストでは信頼性が低下。最低1000字が必要
英語以外の言語、子供の書いた文章では信頼性が低下。成人による英文で学習したため
AI生成と見破れないだけでなく、人間の文章を誤ってAIと判定することもある(偽陽性)
予測性の高いテキストは正しく判定ができない。たとえば「最初の素数1000個」では文字数を満たしても、もともと機械でも人間でも正答は同じになるため。
AI生成の文章でも、多少の編集で容易に人間の文章と判定される可能性を高められる。(「判定ソフトウェアを騙すことに成功した文例をもとに再学習はできるものの、長期的にみて判定器のほうが安定して有利になるかはまだ分からない」)
ニューラルネットワークを使った判定器は、トレーニングデータから外れた入力に対して精度が劣ることが知られている。学習した文章データから大きく離れた種類の文を与えた場合、強い確信度をもって誤った判定をすることがある。

Classifier を現段階で一般提供した目的は、不完全な判定ツールであっても総合的には有用かどうかを含めてフィードバックを募るため。

特にAI生成文が今そこにある危機と化している教育現場に対しては、ChatGPTの基礎知識や教育への活用法、不正利用への対処、生成AIが社会に与える影響への考察等ををまとめたリソースもあわせて提供しています。

(トップ画像は特にOpenAIと関係ない、Media Divisionによるなんちゃってブレードランナー寸劇)