日本時間12月7日、Googleは新開発のAIモデル「Gemini」を発表しました。モバイル機器からデータセンターまで、あらゆる用途に対応すべく、Gemini Ultra、Gemini Pro、Gemini Nanoの3種類を用意します。
Geminiは5月に開催されたGoogle I/O 2023で開発中であることがアナウンスされていました。この新AIモデルは、まずは開発者および企業顧客が独自のアプリケーションで使用できるよう、12月13日よりGoogle Cloud経由でのライセンス供与を行う予定になっています。顧客はGoogle AI StudioまたはGoogle Cloud Vertex AIのGemini APIを使用してGemini Proにアクセス可能になるとのこと。
またGoogle Bardは、今回の発表時点ですでに世界170カ国でGeminiが導入され、OpenAIのChatGPTや、GPT-3.5を使用する他のAIボットに勝るとも劣らない実力を備えるようになったとのこと(対GPT-4の発言はなし)。現在は英語のみですが、Googleは「近い将来」より多言語に対応していくと述べています。
Googleのスンダー・ピチャイCEOは発表において、GeminiはこれまでのGoogle Bardで可能であったほぼすべての部分において、全体的に大きな改善をもたらすものだと述べ「人々は製品がずっと良くなったことに気づくだろ」と説明しました。
また、Geminiのモバイルデバイス向けバージョンであるGemini Nanoは、Android端末上でネイティブかつオフラインで実行可能になります。まずはPixel 8 Proでいくつかの機能が利用可能になる予定で、その後他のAndroidデバイスにも対応を拡大していく予定です。ちなみにいくつかの機能とは「レコーダー」アプリにおける自動要約機能と、Gboard キーボードのスマートリプライ機能とされています。
なお、Googleは来年、Geminiのなかでも最も強力なGemini Ultraを搭載した「Bard Advanced」のプレビューを開始する予定だとしました。Bard Advancedではテキストだけでなく、画像、オーディオ、ビデオを入力として受付け、目的とする出力を行うことができます。
Google DeepMindの責任者であるデミス・ハサビス氏は、テキストだけでなく、マルチモーダルなインタラクションこそがGeminiの真価だと述べ、Geminiを「最初からネイティブにマルチモーダルになるように構築した」と述べました。
デモンストレーションでは子どもの算数の宿題を写真にしてBardに入力し、問題に対して回答のどこが間違っているのかを教える手助けになるような利用方法を紹介しています。
Geminiに手書きの絵や様々な物体を見せ、自然な会話で解釈や推論、提案を尋ねるデモ