AIデバイス企業 Brilliant Labs が、メガネ型端末「Frame」を発表しました。
メーカーの表現では、Frameは「世界初のマルチモーダルAI搭載グラス」。
AI系のニュースでよく聞くマルチモーダル (multimodal)はそのまま「複数のモード」で、要は文字・音声・画像などを複数扱えること。
Frameは39gと軽量な丸メガネ型にディスプレイとカメラ、マイク、Bluetooth無線を内蔵した製品。スマートフォンのアプリと接続することで、
メニューや看板、本のページなど、いま見ているものをAIに翻訳・要約・検索・説明させる
ディスプレイに道案内やメッセージ、時刻や天気予報、通知などを表示
LLM (大規模言語モデル)ベースのAIと会話して調べ物や検索。結果を声で読み上げたりディスプレイに表示
といったことが可能になるとしています。
最近は資金を調達しやすいのかどこも「AIハードウェア」を自称しがちで、なかには本当に宣伝どおりのデバイスを出荷できるのか怪しいものもないではありません。
一方、Frameを発表したBrilliant Labs は既存のメガネにクリップオンする片メガネ型のディスプレイ端末「Monocle」をすでに開発・販売した実績があり、Frameは「Monocle」を外付けではなくメガネ組み込みにして発展させたような製品です。
Brilliant Labs の創業CEO Bobak Tavangar は元Apple社員。出資者・協力者としては、Siriの共同創業者で買収後にAppleにも所属していたAdam Cheyerr 、ポケモンGOで知られるNianticの創業CEOで、ARの先駆者としても知られるジョン・ハンケなど。
640 x 400マイクロOLEDディスプレイとカメラ・マイク搭載
ハードウェアの仕様としては、まず右目側に640 x 400解像度のマイクロOLEDディスプレイ。カラー表示に対応します。
右目側フレーム上部にある小さなマイクロOLEDディスプレイの光が真下に進み、レンズ内のビームスプリッター(いわゆるハーフミラー)で向きを変えて、正面の自然な光とともに眼に届きます。
FOV (Field of View、視野に占める角度)は対角で20度。
人間の目の視野角は周辺視野まで入れれば左右に180度近くあり、「視界を覆う」と表現されるVRヘッドセットも一般的な製品では対角で90度から120度程度。
XREAL Air や VITURE One、Rokid Maxなどサングラス型のディスプレイ、いわゆる「ARグラス」は、製品によるもののおおむね40度から50度程度で、視界の正面に四角い窓が浮かぶ感覚です。
FrameのFOV 20度は比較するとかなり狭いことになりますが、これは映像を鑑賞したり視界を覆って没入する製品ではなく、自然に見えている視界に文字やシンプルなアイコン、地図といった情報を添える使いかたを前提とするため。
640 x 400解像度の範囲で画像も表示できますが、スマートフォンとの接続はBluetoothなので帯域は狭く、基本的には文字やアイコン、地図といった抽象度の高い情報か、静止画表示に向いています (データ量を減らせばアニメーションや映像も一応可能)
カメラは左右レンズの中央のブリッジ部分に搭載しており、解像度は720p。キャプチャできる画像としては粗く、写真や動画撮影のための「カメラ付きメガネ」ではなく、基本的にはAIに渡して読ませたり認識させるためのカメラです。
(スマートフォンアプリからOpenAIのクラウドサービスに飛ばすこと、メガネ型にバッテリーも内蔵する関係から低消費電力の必要性、大きなレンズではなく目立たないピンホール型を採用することなどから、データ量の少ない低解像度画像が妥協点になったようです。)
そのほかハードウェアはマイク、側面タップ入力等に利用するモーションセンサ(6DoF IMU)、ツルの先(メガネ用語のモダン)部分にバッテリーなど。
スピーカー非搭載、標準使用で約6時間駆動
やや意外なことにスピーカーは搭載せず、音を聴くにはイヤホン等を想定しています(あるいはスマホのスピーカーなど)。
オールインワンでディスプレイとカメラつきオーディオグラスにもなってくれれば理想ではありますが、現状で音を鳴らすだけのオーディオグラスでもメガネ型のわずかなスペースをフル活用としてなんとか音質やバッテリー駆動時間を確保していることを考えると、無理に半端なオープンイヤースピーカーも内蔵して重く不格好になり価格が上がるよりは、耳をふさいでノイキャン等もできる AirPods等、あるいはクリップ型のオープンイヤーイヤホンをお好みで選べるほうがむしろ現実的かもしれません。
デバイス単体では最小限のプロセッサしか載せておらず、AI機能はほぼすべてスマートフォンアプリ経由でクラウドに接続します。
(プロセッサはBluetoothやメインのSoCとして nRF52840 (Cortex M4-F搭載)と、画像処理等にFPGAのLattice CrosslinkNX)
バッテリー駆動時間は、一般的な使用の範囲で6~7時間。ディスプレイ輝度最大で常時表示、Bluetooth接続とカメラ等全ての機能をフルに使いつづけた場合で3時間程度。
充電にはブリッジ部分の下に接続する、付け鼻のような充電器「Mr. Power」を利用して満充電まで1時間以下。
AI機能は連携アプリ Noa 経由、OpenAI等のクラウドサービス利用
標準で利用できるのは、すでにAndroidおよびiOS向けに配信中のアプリ Noa の機能。Frameの前身にあたる Monocle と連携するアプリで、今後 Frame でも使えるようになります。
Noa by Brilliant (Google Play)
Brilliant のNoaは基本的にはOpenAIなどが提供するAIサービスをラップして接続するためのアプリで、現時点で英語のみ対応します (投げる先のAI側によって翻訳等は可能)。
接続先はリアルタイムウェブ検索して調べ物をしてくれる会話型AIのPerplex、画像・音声の認識にOpenAIなど。
メーカーの挙げる用途の例としては、
文章の翻訳。本のページを概要にまとめ、翻訳させるなど。
視界のリアルタイム検索。眼の前のレストランの評判やメニューを調べる、値札からオンラインストアと価格比較する、DIYで必要な部品を調べる
文書の作成。AIのアシスタントでホワイトボードに書き込み共有
本体のみを購入した時点では、Noaアプリの無料機能のみが利用でき、さらに高度な機能は連携先のAIサービスへの課金が必要になる見込み。
Noa側で追加機能として有料プランを提供予定ですが、開発者いわく「Humane Ai Pinのように高価にはならない」見込み。
(Humane Ai Pinは通信費用や自前のウェブアプリ込みで月24ドル)
オープンARエコシステム志向。APIも公開
Brilliant Labs 製品の特徴として、ハードウェアからソフトウェアまで多くの情報を開示してサードパーティ開発者に開放するオープンソース志向があります。
Frame もAPIを公開するほか、標準では Lua でアプリ開発が可能。Noa以外のアプリを第三者が開発してGoogle Play 等でパブリッシュすることも可能としています (が、開発者向けドキュメンテーションや必要なコンポーネントの多くは、現状ではMonocleからのアップデート版を準備中・開発中です)。
公式Discordでの開発者向けQAによると、スマホ通知の表示は現時点で開発中。Noaアプリ連携以外にスマホ側の機能を使うには、今後の開発を待つか、Siri や GoogleアシスタントをOSの制約のなかで工夫して使う必要があります。
Display: 640x400 color microOLED. Exactly the same as Monocle
Camera: 1280x720 ultra small form factor sensor. Much more efficient compared to Monocle so expect better battery life and faster download speeds
Microphone: PDM mic similar to Monocle with Adjustable sample rate and bit depth up to 20kHz and 16bit
6 axis IMU: 3 axis acceleration and 3 axis e-compass. Also provides a tap and double tap callback as the main control interface
Battery: 222mAh + 149mAh top up from the extra battery in the charging dock (aka Mister Power)
Main CPU: nRF52840 Cortex M4-F. Increased floating point performance over Monocle as well as improved antenna design giving 2x Bluetooth speed
FPGA: Lattice CrosslinkNX 17k gates including support for full open source toolchains for those who want to tinker with the camera and graphics accelerators
Main OS: Lua based custom OS. Again, fully open source with very few dependencies and a tidy codebase. It’s faster and has a smaller total memory footprint compared to MicroPython on Monocle, while keeping almost the same API structure and feature set as before. Porting Monocle apps to Frame should be quite easy(公式DiscordのQAセッションより)
価格は350ドル、視力補正は購入時にカスタムレンズ必須
Frame の価格は350ドル。米国ではすでに予約を受け付けており、4月から出荷予定です。本体色は白、黒、および基板が見えるクリア(H2O)。
ほぼ普通のメガネに見えるサイズと光学設計から、視力補正の機能を持たせるには注文時に度数を申告してカスタムレンズを作る必要があります。カスタムレンズの場合は450ドル。
サングラス型ディスプレイやVRヘッドセットのように手前にはめ込むインサートレンズではなく、ディスプレイ機能を持ったレンズ自体に光学的に貼り合わせる必要があるため、メーカー Brilliant Labs に本体と同時に注文して作ってもらうのが原則。現状では一定範囲の近視・遠視のみ対応します (SPH / 球面度数のみ)。
Apple Vision Pro などのヘッドセットやサングラス型デバイスでは、正式な処方箋が必要だったり対応するメガネ店で作ってもらう場合もありますが、Frameでは左右の目ごとにドロップダウンで-6から+2までを選択すれば買える豪快な(?)方式。
乱視などにも対応する補正レンズ作成は今後、パートナーシップを通じて進める予定です。
(補正なしで購入して、カスタムサングラス対応の工房などでサイズをあわせたレンズを自前で作ってもらうことも、物理的に可能か不可能かで言えば可能。
しかしスナップオン機構などはないため、補正レンズをFrameのレンズに光学的な問題がないよう貼り合わせ(Optical Bonding)して、自己責任の改造扱いで作ることになります)
Frame の出荷は米国で4月15日から。
国内向け展開が気になるところですが、米国版の発表そのままの内容ながらなぜか日本語でもリリースを打っているため、いずれは何らかのかたちで日本国内向け展開も望んでいるようです。
なお、Frameは「世界初のマルチモーダルAI搭載」を謳いますが、Metaがレイバンとコラボしたカメラ付きサングラスとして販売中の Ray-Ban | Meta Smart Glasses でも、カメラで視た画像をMeta AIが解析して翻訳や説明するマルチモーダル機能対応を予定しており、すでに一部のユーザー向けテストを開始しています。
マルチモーダル機能に対応したAIデバイスとしては、Humane Ai Pin や rabbit r1も予約販売中です。