チャットAIで画像入力が可能に。ChatGPTより一足早くやってきたGoogle Bardマルチモーダルの使い方(Google Tales)

テクノロジー AI
佐藤由紀子

IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。

特集

Bardの7月13日のアップデートでは、いくつか大きな追加がありましたが、遊びがいがありそうなのはGoogleレンズのサポートです。これで、プロンプトに画像を使えるようになりました。マルチモーダルです。

マルチモーダルというのは、大規模言語モデル(LLM)のチャットインタフェースで、通常のテキストによる入力(プロンプト)だけでなく、画像を入力に使うことができるもの。OpenAIは今年3月にGPT-4を発表したときにマルチモーダルが使えるようになると宣言していましたが、ChatGPTを含め、まだ提供されていません。この連載でも、3月に取り上げています。


Googleレンズというのは、GoogleのAIが“見た”画像内の情報を検索するAI技術で、2017年のGoogle I/Oで発表された結構古いツールです。Pixelシリーズのスマートフォンユーザーにはおなじみの機能で、散歩中に花や鳥の種類を確認したり、ペルーレストランでメニューを翻訳したりするのに便利です。

▲PixelではおなじみのGoogleレンズ


Bardにこの機能が追加されたんですが、まだ英語版でしか使えません。

日本でも英語版は使えます。使うには、Bardを使うGoogleアカウントの言語設定を英語にするだけ。Googleアカウントのページを開いて、「個人情報」タブ→「ウェブ向けの全般設定」で言語を「英語」にします(そうするとBardだけじゃなく、ChromeブラウザやらGoogleマップやらも英語表記になっちゃいますが)。

▲Googleアカウントの設定で言語を「英語」に

英語設定にしたら、さっそくBardを開いて試しましょう。日本語版のプロンプト入力枠にはない(+)ボタンが表示されるので、これをクリックするとJPEGかPNGかWebPファイルをアップロードしてね、と言われます。

▲画像アップロードボタン

まず、ツイートに貼られていて、なんだか気になったライアン・ゴスリングの画像を投入。

▲ツイートで見た人物の画像を入力してみた

ところが、「ごめんね、まだ人の画像ではお手伝いできないの」とすげないお返事。しかも投入した画像はremovedされてしまいました。画像、クラウドには保存されるんでしょうか。

▲すげないお返事

ちなみにこの画像をChromeブラウザのGoogle画像検索で検索したところ、こちらは拒否も削除もされず、ブレードランナー2049のトラウマテストのシーンだと分かりました。

この後、Bardでジョー・バイデンさんの公式画像でも試してみましたが、やはり却下されてしまいました。Google画像検索でもPixel端末のGoogleレンズでも人物画像の検索はできるので、Bardでは権利関係とかプライバシー関係とかの配慮でできないようにしているのかもしれません。「まだ」と言ってるし、将来的にはできるようになるといいなぁ。

動物なら良かろう、ということで「この動物は何?」とカピバラの写真を入力したところ、正解でした。カピバラの原産地や性格などの説明もしてくれます。

▲カピバラはカピバラと認識

建築物代表として東京スカイツリーの写真を問うたところ、これも正解。

でも、「これは何?」ならBardに尋ねるよりGoogle画像検索の方が手軽です(日本語のまま使えるし)。

Bardレンズの活用方法としては、画像に適切なキャプションをつけてもらう、とかでしょうか。Instagramに投稿する写真に添えるテキストを考えてもらうなど。あ、でも人が写ってるとだめなので、かなり限られますね。食べ物で試してみました。

▲あんまり映える画像の持ち合わせがない

もう少しプロンプトで状況を説明すると、いいキャプションになるかもしれません(英語だけど)。

もう1つの使い方として、Alt属性(代替テキスト)の生成に便利かもしれません。

「この画像に写っているものを説明して」と頼むと、例えば上の写真だと以下のような説明をくれます(日本語にしました)。うーん、ボウルは白くないし、いろいろ誤解もあるようですが……。

あなたが私に送ってくれた画像には、木製のテーブルの上にスープの入ったボウルが置かれています。 ボウルは白く、縁は青いです。 スープは薄茶色で、小さな野菜がいくつか浮かんでいます。 ボウルの中にはスプーンも入っています。

テーブルは薄茶色の木材でできており、多少の傷があります。 スープの入ったボウルの隣のテーブルに白い布ナプキンが折りたたまれています。 画像の背景は白い壁です。

全体的なイメージはシンプルで穏やかな雰囲気です。 色は落ち着いており、オブジェクトはシンプルに配置されています。 落ち着いた雰囲気と静けさをイメージさせます。

画像に関する追加の詳細は次のとおりです。

スープは野菜スープのようで、おそらく鶏肉か豆腐が入っているようです。

スプーンは銀製で、ハンドルは木製です。

ナプキンは白いリネンでできており、青い縁取りが付いています。

背景の壁は白く塗られています。

画像はキッチンまたはダイニングルームで撮影されました。

これがお役に立てば幸いです!

スープの写真を見せたので、ついでに「このスープは何カロリーくらい?」と尋ねてみました。「一般的には」野菜スープはカップ1杯で約50カロリーだそうです。さらに、「写真のスープはクリームベースのスープのようなので、だし汁ベースのスープ(コンソメ?)よりもカロリーは高くなりそうです」と、ちゃんと写真を見てるんだとわかる説明も追加しました。

イチゴのショートケーキの写真に「このケーキのカロリーは?」と尋ねてみたところ、「イチゴのショートケーキにホイップクリームを乗せ、その上にイチゴを乗せたものはカロリーが高くなりがちです」とちゃんと写真がイチゴのショートケーキだと認識し、典型的なイチゴのショートケーキのカロリーは約400~600カロリーだと教えてくれました。さらに、カロリーの低いショートケーキの作り方も教えてくれました。

さらに、Googleが得意であろうGoogle製品の画像を投入してみました。Pixel Fold(左)とPixel 7 Proの画像です。

Pixel Foldの記事のために撮影した写真なのに


がーん。写真がへたくそだからよく分からなかったんでしょうか。「画像のスマートフォンはGoogle Pixel 4とPixel 4aです」ときっぱり。

なので、「ほんと? よく見て。私は右のはPixel 7 Proで左はPixel Foldだと思うけどなぁ」と言ったら、あっさり前言撤回し、間違えてごめんなさい、と。なお、Pixel 7 ProとPixel Foldの比較表の中身は合ってました。

▲あっさり謝られた

「Bardで生成される情報は不正確または不適切な場合があります」といつも画面に表示されているので、このくらいで驚いちゃいけないですね。

▲おまけ。「君たちはどう生きるか」のポスターを解釈させてみたら……

追記:連載名を「Google Tales」に変更しました。

《佐藤由紀子》

佐藤由紀子

IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。