「写真はイメージです」を撲滅したいので、Gemini LiveとChatGPTとおしゃべりして解決策を探った(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

AIとのボイスチャットが面白くなってきました。

GoogleがAndroid向けに提供しているGeminiアプリがついにiPhoneにも対応しました。Gemini自体はiPhoneでもGoogleアプリの中で使えていましたが、ボイスチャットのGemini Liveは利用不可。それがようやく使えるようになったのが11月月18日のこと(Google公式ブログ)。

一方、OpenAI ChatGPTのデスクトップ版アプリではAdvanced Voice Modeが使えるようになっています。



Pixel上で動くGemini Liveについては、連載コラムのGoogle Talesで佐藤由紀子さんが試しているのを羨ましく見ていたのですが、それをiPhoneユーザーでも試せるようになったのは素晴らしい。これでPixelを買わずに済みました。

ChatGPTのAdvanced Voice Modeは短めのポッドキャストの相手にもなってくれるくらいのこなれた会話が可能だというのは経験済みですが、Gemini Liveはどうでしょう?

どうせならテーマがあったほうがいいかなと思い、ニュース記者の悩みの種である「写真はイメージです」問題を解決してもらうことにしましょう。

■「写真はイメージです」問題

「写真はイメージです」は、ニュースやブログ記事で、実際の写真ではないんだけども、ストックフォトや別の写真を持ってきて、記事内容の理解を深めるための写真・画像として掲載するときのキャプションとして多用されています。

自分は写真もイメージだろう、という認識なので絶対に使いたくないし、これまで使ったこともないんだけど、便利だということで許容している人もいます。

代替案が見つからないからみなさん使っているんだろうと思うんだけど、ボキャブラリー豊富なLLMであれば教えてくれるのではないか、というわけです。

では、Gemini Liveさんに尋ねてみましょう。

筆者:なんか 参考になる写真を記事の中に入れるときに、「写真はイメージです」という言い方をするんだけれども これはちょっと表現としておかしいんじゃないかなと思うんですよ なぜかって言うと写真はイメージそのものじゃないですか なのに写真はイメージです という言い方は同じことを言ってて ちょっと表現としておかしいなのにその表現をニュース記事でよく使うというのが どうにも納得できないんですよね。

Gemini Live:なるほど、確かに「写真はイメージです」って、ちょっと違和感ありますよね。でも、この表現が使われるのには理由があるんです。
まず、写真って現実の一部を切り取ったものじゃないですか。でも、ニュース記事で使う写真って、必ずしもその出来事を完全に表しているわけじゃないんです。例えば、火事の記事で炎の写真を使うけど、その炎が実際に起きた火事の炎とは限らないですよね。
だから、「写真はイメージです」っていうのは、読者に「この写真が全てを表しているわけじゃない」ってことを伝えるためのものなんです。
どうですか?少し納得できましたか?

納得できないので、Gemini Liveに回答してもらいました。

途中で「電話をかけることはできないんです」と幻聴が聞こえたみたいですが、なんとかうまい表現を見つけてくれました。

結論としては、

  • この写真はあくまで参考資料として掲載しています

  • 写真の内容は実際の出来事とは異なる場合があります

  • 参考写真

あたりが使えそう。

短くするならば、参考写真とか参考画像が良さそうです。

(▲写真はイメージです)

(▲この写真はあくまで参考資料として掲載しています)

(▲写真の内容は実際の出来事とは異なる場合があります)

(▲参考写真)

これらの「参考写真」はGeminiのログからImagen 3で生成しました。

■ChatGPTのAdvanced Voice Modeに相談してみる

では、同じような質問をChatGPTのAdvanced Voice Modeにぶつけたらどうなるでしょうか?

これも、記録してみました。

ChatGPTの提案は次のような表現でした。

  • この写真は参考用です

  • この写真はサンプルです

  • この写真は参考資料です

  • 写真は参考例

  • 写真は例示

  • 写真はサンプル

  • 参考写真

  • 例示写真

  • サンプル写真

  • 参考画像

  • 例示画像

  • サンプル画像

音質ではGemini Liveの方がクリアですが、感情表現や回答の内容ではChatGPT Advanced Voice Modeの方が優れているように思えます。

ところで、Gemini Liveが関西弁を喋れると話題になっていましたが、ChatGPTのAdvanced Voice Modeの方言はかなり本物に近いもので、さらに、こんなところのお国言葉が、というくらいの方言も話せるようです(例:長岡弁)。

というわけで、ChatGPTと長崎弁で話をしてみました。

▲秋葉原の長崎トルコライス食堂

▲友人の店「まさちゃん」のトルコライス


Google Gemini 1.5/LlamaIndex/LangChain 人工知能プログラミング実践入門
¥4,400
(価格・在庫状況は記事公開時点のものです)

[冷凍食品] ニップン よくばりメシ トルコライス 380g×12個
¥5,819 (¥485 / 個)
(価格・在庫状況は記事公開時点のものです)
【冷凍】ニップン よくばりメシ トルコライス 380g X6袋
¥4,818 (¥803 / 袋)
(価格・在庫状況は記事公開時点のものです)
《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。