4月1日に「Apple Intelligence」が日本語対応したのに伴い、日本市場でもAIスマホの注目度が高まっています。
サムスン電子は、昨年搭載を始めた「Galaxy AI」の日本語対応を報道陣に改めてアピールするなど、ライバルの登場を見越した競争も激化しています。また、グーグルもPixelの廉価モデル「Pixel 9a」を16日に発売する予定です。

アップル、グーグル、さらにはサムスンとAI対応で火花を散らしている格好ですが、やはり日本語の理解度にはまだまだ実力差があるようにみえます。比較的早くから日本語に取り組んでいたグーグルに対し、サムスンは日本の研究所で開発を行うことでスピードアップを図っています。アップルも、フリック入力や音声入力など、日本語の扱いには一日の長がありました。そこで、これら3メーカーの端末のAIを、日本語という観点で比較してみました。
まず試したのは、ボイスレコーダーの文字起こし。厳密に言うと、iPhoneのそれはApple Intelligenceには含まれないようですが、この機能もiOS 18.4で利用できるようになりました。文字起こしと言えば、優秀なのはPixelです。この2シリーズは、リアルタイムで文字起こしが可能。つまり、しゃべったそばから日本語が文字として表示されていくスタイルです。

▲Galaxy AIのみ、録音した音声を後からテキスト化するスタイル
一方のGalaxy AIは、録音したファイルを後から文字起こしする方式。処理はデバイス上で行われているようですが、録音しながらの作業はできません。数字などの聞き間違いがないかを、その場ですぐに確認することができて便利なのは前者。Galaxy AIのように後からであれば、ほかにもAIはあるため、あえてスマホに頼る必要性も薄くなってしまいます。
次に精度ですが、目の前に端末を置き、ある程度はっきりと発話した場合、iPhone、Pixel、Galaxyともに、ほぼ内容が分かる程度まで文字になりました。ところどころ誤字は含まれているものの、そのままコピペして修正すれば使えるレベル。若干ですが、Pixelの方がミスは少ないかなという印象を受けますが、決定的な差があるようには見えませんでした。

▲左からPixel、iPhone、Galaxy。目の前で声を吹き込んだところ、どの端末もそこそこの精度が出ていた
ただ、環境によっては、この違いが顕著になってきます。スピーカーから出た音で、かつ反響が大きい発表会のような場面で使うと、結果には差が出ました。もっとも発言を忠実に再現しようとしていたのは、Pixelのボイスレコーダー。逆に人間が聞き逃しそうなところまでしっかりテキスト化されていました。ただし、より雑音が多いときなどは、ザクっと文章単位でカットしてしまうこともあるため、過信は禁物です。

▲筆者の質問に対するKDDI松田浩路新社長の回答。ところどころ単語が間違っているが、おおむね意図は理解できる
次点はiPhoneのボイスレコーダー。こちらも、ある程度まで内容はつかむことができますが、Pixelに比べるとまだまだ誤字や意味が通じない日本語を出力することが多いようにみえます。また、iPhoneの場合、なぜか単語の途中までテキスト化し、その後をスキップしてしまうようなことがありました。

▲iPhoneのボイスレコーダーは単語レベルでザクっと省くことがあり、ところどころ意味が分からない文字起こしになってしまった
また、記者会見だと、厄介なのが質疑応答。登壇者は訓練されていることもありハキハキと話すのですが、記者は早口だったり、ボソボソとしゃべったりと、聞き取りにくいことが多々あります。筆者にも心当たりがあるので申し訳ないのですが(笑)。iPhoneの文字お越しはこれが苦手なようで、質問ときは途端に認識率が下がりました。逆にPixelは、ここまでテキストにできるのかというぐらい、話されたことが文字になっています。

▲筆者の活舌が悪かったせいか、iPhoneだと何を話しているのかよく分からない結果に

▲逆にPixelはかなり優秀で、筆者のしゃべっていることがほぼそのまま文字になっている
厳しいなと思ったのがGalaxy AI。先に述べたように後からしか文字起こしができないだけでなく、精度も低めです。目の前の端末に声を吹き込んだときも、ほか2端末より若干誤字が多めでしたが、ホテルのホールなどで行われる発表会だと、それがさらに悪化。文字を見ただけだと、何を言っているのかがまったく分からないことすらあります。これだと単語で手掛かりを見つけてから、録音を聞き直すしかありません。

▲Galaxy AIはかなり厳しい結果に。単語を無理やり作り出していることが多く、逆に文意の把握には妨げになってしまっている印象だ。「メイン村」や「ギャンブル」とは…
おそらくこれは、日本語だけの問題というより、どこまで環境を考慮し、ノイズリダクションができているかという話にもつながってきます。目の前では精度が比較的高かったのに、反響が多い会場だとそれが落ちてしまうのは、音声をきちんと聞き取れていない可能性があるということです。反響の程度は場所によってさまざまですが、より多彩な環境でAIを学習させていく必要がありそうです。
こうしてテキストにした録音を、今度は要約にかけてみました。iPhoneの場合、文字起こししたテキストは、ボイスメモアプリ内にあるため、これをいったんコピーし、メモアプリに貼り付けました。その後、Apple Intelligenceの作文ツールを起動し、要約をかけています。すると、以下のような文面が出来上がりました。松田新社長の就任会見をまとめたものですが、ニュース性のファクトだけが簡潔にまとめられています。

▲Apple Intelligenceの要約。挨拶や社長の経歴などはザクっと省かれ、ファクトのみが簡潔にまとめられているが、やや簡潔すぎるきらいも
一方のPixelは録音に使ったPixel 9aがGemini Nanoによる要約に対応していなかったため、いったんファイルをPixel 9に移したあと、レコーダー内で要約をかけています。こちらは、Apple Intelligenceよりも、より発表会の内容をきちんと反映している印象。過不足なくまとまっており、記事の骨子に使えそう……と思ってしまいました(笑)。廉価版のPixel Aシリーズで使えないのは残念ですが、かなり優秀です。

▲Pixel 9のGemini Nanoによる要約は、発表会全体の流れまで分かる素晴らしい出来栄え。過不足なくまとまっている
ダメダメだと思っていたGalaxy AIも、要約だと内容がしっかりしてきます。あの文字起こしを読み解けただけでもすごいのですが、もしかしたらAIには分かる謎言語だったのかもしれません(笑)。ちなみに、Galaxy AIの場合、文字起こしはオンデイバスですが、要約にはクラウドを活用しています。クラウド側の方がAIモデルの性能が高いこともあり、その結果が反映された可能性もありそうです。

▲意外なことに、Galaxy AIも要約は比較的正確で情報量も十分だった
普段から使い比べていますが、現時点では、文字起こしや要約を使うならPixelが一歩リードしている印象。ただし、iPhoneは初対応ながらもなかなか優秀。アップデートで精度に追い込みをかけられるのであれば、Pixelを置き換えられる存在になるかもと期待が持てました。対するGalaxyは、文字起こしに抜本的な改善が必要だと感じています。特に環境による差が大きいことが課題。日本で研究開発をしている強みを生かし、早期のアップデートを期待したいところです。