OpenAIは5月13日(米国時間)、オンラインでSpring Updateイベントを開催。その中で、フラグシップとなる大規模言語モデル「GPT-4o」を発表しました。
APIでの提供も行い、現行最新モデルのGPT-4 Turboと比べて2倍高速、価格は50%安価に、レートリミットは5倍に拡張されています。
GPT-4oはオーディオ、ビジョンを統合したマルチモーダルLLMで、強力なボイスモードを搭載。イベントで行ったライブデモでは音声で感情豊かに澱みなく回答。ユーザーからの割り込みにも柔軟に対応し、歌いながら答えたり、モバイルChatGPTアプリで英語とイタリア語が混在した会話の通訳をしたり、MacBookで動いているデスクトップ版ChatGPTアプリで画面内のコードやグラフを読み取って分析したりしてみせました。
▲iPhone版ChatGPTアプリでカメラに映した手書きの数式を見せながら音声でやりとり
特に印象的なのは音声での応答スピード。OpenAIによれば、応答時間は最小で232ミリ秒。平均でも320ミリ秒で、これは人間の平均的な会話における応答速度と同程度だとしています。
GPT-4oは世界人口の97%に対応する50カ国語に対応。有料ユーザーだけでなく無料ユーザーにも、今後数週間内に提供する予定です。
GPT-4oは、ChatGPT Plusの購読者はすでに利用できるようになっています。モバイルのChatGPTアプリでも利用可能です。
▲発表はミラ・ムラティCTOが行った
▲複数のボイスを使ってハーモニー
▲二人のGPT-4o同士で会話し、歌う