AIハードウェアスタートアップのrabbitが、モバイルAI端末rabbit r1を発表しました。
ローポリゴンのウサギ風グラフィックのAIが、ユーザーの指示に応えてかわりにアプリやサービスを操作して買い物や予約などの用事を済ませてくれる、執事かコンシェルジュのようなコンセプトの製品です。
他のAIアシスタントやAIデバイスとの違いは、独自の基盤モデルLAM (Large Action Model、大規模アクションモデル)をベースにすること。
rabbit OSはスマホやデスクトップ、ウェブの様々なアプリやサービスを学習しており、人間が操作するように複数のアプリを使いこなして、ユーザーのしたいことを代わりに済ませてくれます。
独自のポータル rabbit hole経由で既存のサービスやアプリにログインする仕組みで、月額使用料は不要。音楽サービス等のサブスクリプションはそのまま継続できます。
モバイル端末としての r1 は、手のひらサイズの正方形に小さな画面とボタン、アナログホイール、回転式カメラ、マイクとスピーカー、LTE通信とSIMスロットを備えたデバイス。
インダストリアルデザインはシンセやイヤホンなどで知られる Teenage Engieeringが手掛けています。
rabbitが示した使い方は、側面のボタンを押して知りたいことやしたいことを話すだけ。
たとえば食べ物のデリバリーを頼むときは、食べたいものや店を伝えると、rabbit OSがウェブ検索やデリバリーアプリの操作を肩代わりして、見つかったものを口頭でユーザーに確認。
そのまま会話でメニュー候補やオプションを調整してくれるため、あとは画面に表示される最終的なオーダーと支払いに確認ボタンを押すだけです。
このほか買い物や乗り物の手配、旅行の計画など、適当に人に頼むようにrabbitに指示できます。
またカメラの「rabbit eye」に冷蔵庫の中を見せて「これで作れる何々料理のレシピを教えて」や、文書を見せて表にまとめさせて、メールで送信してもらうといった使い方も。
AIがかわりに働いてくれるサービスやデバイスは他社も展開しており、自然な会話でアプリやウェブ上のサービスを使うことは、ChatGPTなどでも可能です。
しかしChatGPT等、LLM (大規模言語モデル)ベースのチャットボットでは、扱えるのは基本的にテキストで、WebサービスのHTMLやスクリーンショットから状態を理解するのは苦手。外部のアプリやサービスと連携するには、接続用のAPIとプラグインを経由する必要があります。
対する rabbit OS は、LLMならぬLAM (大規模アクションモデル)なる基盤モデルを用意。
様々なプラットフォームのアプリやサービスを人間が使う様子から学習しており、人間の意図を具体的なアプリ操作に置き換え、また結果を理解して伝えることができるとされています。
このLAMベースの仕組みにより、人間が自分で操作するなら複数のアプリやウェブページを開いて切り替え、それぞれ違ったドロップダウンやボタン、メニュー等々の使い方を覚え、ひとつの結果をコピーや保存して次のアプリに渡す等々の手間がかかる複雑なタスクでも、最終的に何がしたいか、欲しいか伝えるだけで実行できると謳います。
rabbitによると、rabbit OSとLAMの実際の演算はクラウドベース。r1は目と耳、声とディスプレイの役割で、LTEを通じてクラウドと通信します。
r1に操作させたいサービスは、ウェブベースの「rabbit hole」アプリを使い、あらかじめログインして登録しておくことが必要です。
そのほか実験的な機能としては、複雑なデスクトップアプリなどの操作をrabbit OSに「見せる」ことで学習させ、以降は自分は手を動かさず声で指示するだけで実行させるなど。
r1の価格は199ドル、月額利用料は無料。通信はユーザーが手持ちのSIMカードを挿入して使えます。
音楽配信等、外部サービスのサブスクは現状で使っているものがそのまま利用でき、rabbit専用に加入しなおす必要はありません。
すでに先行予約を受け付けており、日本を含む数カ国に発送します。出荷時期は米国でイースターあたり(4月)の見込み。日本など海外はそれ以降。
rabbit OSはスマホやデスクトップのあらゆるアプリを学習済みで操作できるといいつつ、実際に対応するサービスやアプリの具体的なリストは不明。
仕組みとしてはポータルのrabbit hole経由で各アプリやサービスにユーザーがログインすることで登録し、rabbitが操作できるようになるとの説明ですが、特にスマホアプリなど、ローカルで動作するものをサーバサイドの端末にホストして操作するのは、物理的には可能としても、費用や各アプリの利用規約から何にでも対応は難しいと思われます。
月額料金は不要、通信はユーザーのSIMカードが使えるとしていますが、クラウドベースで処理する以上は継続的に費用がかかるため、どうやって運営するのか、直接課金とすればrabbitはサービス利用のどこにどう値段をつけるのかも不明。
ローカルスマホアプリとデスクトップに跨るようなタスクは具体的にどうやってパーミッションを得て操作するのか等々、分からないことだらけではありますが、Humane Ai Pin同様、何が出てくるかどう転ぶか分からない「AIハードウェア」の面白さがあります。
Humane Ai Pin はこちら。バッジ型で広角カメラの眼と会話のためのマイク・スピーカー、ユーザーの手のひらをディスプレイにするプロジェクターを備え、スマホ要らずでさまざまなタスクを実行できるとのふれこみです。こちらは通信料とサービス利用料こみの月額課金制。
Ray-BanとMetaがコラボしたスマートグラスは、現状では「Hey Meta」を聞き取ってLLMベースのMeta AIと会話でき、Take a Photo / Videoと頼めば撮影してくれる程度の機能。
しかし今後のアップデートではマルチモーダル化で画像対応したMeta AIとカメラを連動して、自分がいま見ているものについてMeta AIに質問する機能にも対応予定です。