Googleの新AIモデル「Gemini」。Ultraすごいマルチモーダルデモの種明かし(Google Tales)

テクノロジー AI
佐藤由紀子

IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。

特集

Googleさん、5月のGoogle I/Oで予告していた新生成AIモデル「Gemini」のバージョン1.0をぎりぎり年内にリリースしましたね。問題が多いから年内リリースは無理そうというもありましたが、とりあえずちっさいモデル(ProとNano)だけぎりぎり年内に出して面目を保った感じです。


本命でマルチモーダルな最大サイズの「Gemini Ultra」は来年に持ち越し。安全性のチェックと強化学習に時間をかけているそうです。

このUltraのデモ動画がすごすぎて話題になっていますが、動画の概要説明に「For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity」(このデモでは、簡潔にするためにレイテンシが短縮され、Geminiの出力が短縮されています)とあるように、実際にはまだ、あんなに滑らかではないようです。

▲デモ動画についての概要

そもそも、あんなに滑らかに応答するとしたら、Gemini Ultra搭載マシンはどんな姿(?)なんでしょう。脳(TPU?)はどんな感じで、目(カメラ)はどこに付いているんでしょう。

▲こんな感じ?(ばじぃさんによるGemini Ultra想像図)

YouTubeの概要説明には、実際に行ったプロンプトについての種明かし的な公式ブログへのリンクもあります。これを読むと、例えばデモ動画の5分27秒目からの映画「マトリックス」で主人公のネオが体をのけぞらせて弾丸を回避する有名なシーンを真似た動きの動画をPixelでGeminiに見せて「何の映画を演じてる?」と尋ね、「マトリックスの有名な弾丸避けのシーンを演じていると思う」とGeminiが答えるところは、

▲動画でのデモ

実際には連続する静止画と「なんの映画だ?」というテキストをプロンプトに入力し、「マトリックス」と答えたら、さらに「でも、じゃあ、どの場面だ? 体の動きを見て」と尋ねて「ネオが弾丸を避けるシーン」と答えていたようです。

▲ブログでの種明かし

個人的には、静止画とテキストプロンプトにちゃんと答えるだけでも偉いと思うんですが、X(旧Twitter)などで拡散したデモ動画のすごいところだけ切り取ったクリップを説明なしに見た人たちはさぞ驚いたことでしょう。

Googleさんは騙そうとしたわけではなく、将来的にはデモ動画のように滑らかに対話できるようになることを見せたかったんだと思います。

そもそも今のBardくん(Gemini Pro搭載前)の頼りなさを知っていれば、過大な期待はしないと思います。さっきも「今年のゲームアワードの受賞者は誰?」と聞いたところ、「2023年12月8日に開催された「The Game Awards 2023」の受賞者は、以下の通りです。」ときたので「お。すごい」と思ったんですが、ところどころおかしい。

「最優秀スポーツゲーム:『FIFA 24』というのは本当ですか?」と問いただしても「はい、これは本当です。」と言うんですが、実際にはFIFA 24は受賞していません。なんども質問を変えて問い詰めると、「2023年12月8日に開催された「The Game Awards 2023」において、最優秀スポーツゲームに選ばれたのは『FIFA 24』でした。しかし、Best Sports/Racingには『Forza Motorsport』が選ばれました」というよくわからないお返事。なかなか過ちを認めないのは危険です。そういう新人君はうまく育ちません。

Bardくんは、英語だったら日本でもGemini Proを使えるそうです。ちゃんとした確認方法はない(サブスク版Chat-GPTのようにGPT-3.5を使ってるのかGPT-4なのかが表示されない)ですが、推論の問題をいくつか日本語版と英語版にそれぞれ解いてもらったところ、日本語版は不正解もしくは「まだ勉強中なのでそれはできません」のところ、英語版は正解するのでPowered by Gemini Proだと思って良さそうです。

なので、気を取り直して、Gemini Pro(Proってネーミングですがレベル的にはGPT-3.5並です)が脳みそに入っているはずの英語版Bardに「Who is this year's Game Award winner?」と聞いたところ、余計なことは言わずに「The winner of this year's Game of the Year award at The Game Awards is Baldur's Gate 3」と簡潔に正解。でも、「Who won the Best Sports/Racing award?」と尋ねると「まだ終わってないから決まってないけど(いや、とっくに終わってるぞ)、ノミネートされたのは以下のゲームです」として5本のゲームをリストアップするんですが、2本嘘が混じってました。しかも「OlliOlli Worldってほんと?」と確認すると「意外に思う人もいると思いますが」とノミネートの理由をもっともらしく説明するんです。うう。

▲もっともらしい説明

だからだめだと言っているわけではないんです。私もいつかはデモ動画のように、Geminiと自然に語り合えるようになる日が来ると思ってます。

あまり期待しすぎず、かといって見放さずに生暖かく見守っていきたいと思います。

ちなみにGeminiは「双子座」という意味だそうですが、Googleからは名前の由来の説明は今のところないようです。Bardに英語で尋ねると、Google ResearchとDeepMindという2つの組織がマルチモーダルモデルのプロジェクトのために協力するようになり、最終的に合併してGoogle DeepMindになったから、というもっともらしい説明をしますが、そのソースは提示されません。あと、NASAのジェミニ計画も関係あると言うんですが、これもBardくんが勝手に言っているような気がします。

と、書いたのですが、日本時間の12月10日の午前5時ごろ、Google DeepMindとGoogle Researchのチーフサイエンティスト、ジェフ・ディーンさんが同じことをXにポストしたので、Geminiはこれをそのまま引用したようです(逆じゃないといいんですが)。

余談ですが、Geminiは英語では「ジェミナイ」と発音するのが普通で、ピチャイさんもハザビスさんも「ジェミナイ」と発音していますが、もともとは教会ラテン語からきていて、ラテン語の発音は「ジェミニ」なので、日本人は「ジェミニ」と発音すればいいと思います。Google日本法人も「ジェミニ」と表記しています。

そういえばNASAのProject Geminiの場合は、Geminiはジェミナイじゃなくジェミニと発音してます。

個人的にもジェミニがいいなぁ。昔我が家の車はいすゞジェミニだったので。

▲なつかしのいすゞジェミニ


《佐藤由紀子》

佐藤由紀子

IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。