OpenAI GPT-4正式発表、多数の試験で「人間超え」達成。画像も理解するマルチモーダル化、分析・生成文章量8倍など劇的進化の言語生成AIモデル

OpenAI が大規模言語モデル GPT-4 を正式発表しました。

会話型AIとして話題になった ChatGPT に従来使われてきた GPT-3.5 と比較して、多くの点で劇的に進化しています。例を挙げれば、

画像を扱えるマルチモーダル化。何が映っているか、どんな状況かを認識(例：テーブルに載った食材でレシピを考える、風船の紐を切れば空に飛んでゆくと推論など)
扱えるテキスト量が8倍以上に増加(2万5000ワード超)。より長く詳細な指示を受けたり、長い文章からスタイルを模倣する、従来より長い文章を生成するなど。
知識量および推論能力が大きく向上。米国の大学入試共通テストにあたるSATや弁護士試験など、多数の試験において受験者の上位10%内など人間を超える結果。(GPT-3.5は下位10%の成績)
創造性も向上。たとえば「Aで始まる単語からアルファベット順にZで始まる単語まで、重複なし26個の英単語を使ってシンデレラのあらすじを説明して」といった無茶振りにも対応。作詞や脚本執筆、従来の8倍以上長い小説を生成など
主要なプログラミング言語はすべて習得。自然言語の指示からコードを書くことも、コードを理解して挙動を答えることも、移植も可能
誤った回答をする率が40%減少、不許可コンテンツを回答する率が80%減少。

OpenAIによれば、GPT-4のトレーニングは提携するマイクロソフトのAzureクラウド上のAIスーパーコンピューターを用いて昨年8月に終了。そこから数か月は、安全性の確保やユーザーにとって役に立つこと、指示に応えることを目的にチューニングを重ねてきました。

GPT-4の開発にあたっての目標は、従来よりも能力を高めると同時に、誰にとっても使いやすく実用になること。いわゆるアーリーアダプターやテクノロジーに明るい層だけでなく、こどもを含めてあらゆる人がAIのアシストを得て学んだり、仕事に活かせることを目指して開発されています。

GPT-3.5比で劇的に進歩した一方で、課題であったハルシネーション(学習元データになく、誤った事実を作り出したり、確信する現象)や、誘導で不適切な回答をする挙動など、制約も多く残っています。

人間向けの試験では数学や読解、小論作成といった内容では高いスコアを出せるものの、人間にまったく及ばない分野や形式のテスト、GPT-3.5と差がないものも多数。

GPT-4は ChatGPT Plus のかたちですでに利用可能です。開発者が自分のアプリやサービスに組み込むAPIはウェイトリストへの登録を受け付けています。

すでに先行して自社製品に組み込んだ数社がサービスを公開または予告したほか、OpenAIに多額の投資をするマイクロソフトは、「新しいBing」の検索とチャット機能のベースにGPT-4が使われていることを初めて認めています。

Ittousai