OpenAI が大規模言語モデル GPT-4 を正式発表しました。
会話型AIとして話題になった ChatGPT に従来使われてきた GPT-3.5 と比較して、多くの点で劇的に進化しています。例を挙げれば、
画像を扱えるマルチモーダル化。何が映っているか、どんな状況かを認識(例:テーブルに載った食材でレシピを考える、風船の紐を切れば空に飛んでゆくと推論など)
扱えるテキスト量が8倍以上に増加(2万5000ワード超)。より長く詳細な指示を受けたり、長い文章からスタイルを模倣する、従来より長い文章を生成するなど。
知識量および推論能力が大きく向上。米国の大学入試共通テストにあたるSATや弁護士試験など、多数の試験において受験者の上位10%内など人間を超える結果。(GPT-3.5は下位10%の成績)
創造性も向上。たとえば「Aで始まる単語からアルファベット順にZで始まる単語まで、重複なし26個の英単語を使ってシンデレラのあらすじを説明して」といった無茶振りにも対応。作詞や脚本執筆、従来の8倍以上長い小説を生成など
主要なプログラミング言語はすべて習得。自然言語の指示からコードを書くことも、コードを理解して挙動を答えることも、移植も可能
誤った回答をする率が40%減少、不許可コンテンツを回答する率が80%減少。
OpenAIによれば、GPT-4のトレーニングは提携するマイクロソフトのAzureクラウド上のAIスーパーコンピューターを用いて昨年8月に終了。そこから数か月は、安全性の確保やユーザーにとって役に立つこと、指示に応えることを目的にチューニングを重ねてきました。
GPT-4の開発にあたっての目標は、従来よりも能力を高めると同時に、誰にとっても使いやすく実用になること。いわゆるアーリーアダプターやテクノロジーに明るい層だけでなく、こどもを含めてあらゆる人がAIのアシストを得て学んだり、仕事に活かせることを目指して開発されています。
GPT-3.5比で劇的に進歩した一方で、課題であったハルシネーション(学習元データになく、誤った事実を作り出したり、確信する現象)や、誘導で不適切な回答をする挙動など、制約も多く残っています。
人間向けの試験では数学や読解、小論作成といった内容では高いスコアを出せるものの、人間にまったく及ばない分野や形式のテスト、GPT-3.5と差がないものも多数。
GPT-4は ChatGPT Plus のかたちですでに利用可能です。開発者が自分のアプリやサービスに組み込むAPIはウェイトリストへの登録を受け付けています。
すでに先行して自社製品に組み込んだ数社がサービスを公開または予告したほか、OpenAIに多額の投資をするマイクロソフトは、「新しいBing」の検索とチャット機能のベースにGPT-4が使われていることを初めて認めています。