ロボットの頭脳を動かすマルチモーダルな視覚言語「PaLM-E」とは何か?(Google Tales)

テクノロジー AI
佐藤由紀子

IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。

特集

OpenAIがChatGPTのAPI提供を開始して以来、怒涛のように関連サービスが発表され続けています。Googleさんはまだその波には乗らない(いろいろ事情もあって乗れないのかも)ようですが、内部ではAIに注力しています。

3月6日には、以前から本社キャンパスで研修中のロボットたちの頭脳になるかもしれない「PaLM-E」なるものの論文を公開しました。大まかに言うと「マルチモーダルな視覚言語」だそうです。

▲Googleの本社キャンパスで研修中のロボット

AI分野では、「モーダル」は処理するデータの種類のことを指します。GPT-3.5が処理できるのはテキストだけなのでシングルモーダル。テキストのプロンプトで画像を生成できるOpenAIの「DALL・E 2」は、テキストと画像という2種類のデータを扱えるのでマルチモーダル。モーダルにはテキストと画像の他に、数値や動画や音声などがあります(臭いとか熱とか触覚とかもデータとして扱えればモーダルになります)。

PaLM-E(Pathways Language Model with Embodied)は、Googleの巨大な言語モデルPaLMを、ロボットがカメラや腕などのセンサーから取り込むデータで補完することで「E」mbodied(具現化)します。ロボットが取り込むモーダルは映像や音声、触覚です。

これを頭脳にしたロボットは、人間が声で命令したことを実行できます。GitHubで公開されているデモ動画では「引き出しの中のスナックの袋を私にちょうだい」と命令すると、ロボットが引き出しまで行き、引き出しを開けてスナックの袋を出し、それを掴んで命令した人のところに届けます。

人間がいじわるをして、ロボットが出したスナックを引き出しに戻しても(つまり、状況が途中で変わっても)、何度でも命令を実行するために動作を修正して繰り返します。

すごそうですが、ただでさえPaLMはサイズが大きい(言語モデルのサイズを表す「パラメータ数」でいうと、GPT-3.5が3550億のところ、PaLMの一番大きいやつは5400億)のに、さらに具現化のための機能を追加したらとんでもないサイズになって処理能力が追いつかないのでは? 紹介動画も、ハードウェア的な問題もあるかもしれませんが、ミッションクリアまでにかなり時間がかかっていることが分かります(動画は4倍速です)。

今のところ、パラメータ数を多くすればするほど言語モデルの能力は上がっていますが、いずれ処理能力の限界が訪れます。

Googleは、PaLMをマルチモーダルにするのではなく、PaLMと別のビジョンモデルViT(Vision Transformer、パラメータ数は220億)を組み合わせることで効率化し、マルチモーダルなPaLM-Eを作りました。

Googleが公式ブログで紹介しているPaLM-Eモデルのアーキテクチャ概念図はこちら。

▲PaLM-Eがいろんなモーダルを取り込んでタスクに対処する方法の説明図

Googleによると、PaLM-Eは「事前学習済みのLLM(大規模言語モデル)の埋め込み空間にマルチモーダル情報を注入し、多様なタスクの混合データで訓練することで、大規模なデータがなくても、さまざまなロボットを制御できる」と説明しています。「凍結された言語モデルが、汎用性の高い具現化モーダルモデルへの有望なルートであることを示している」とも。

「大規模なデータがなくてもさまざまなロボットを制御できる」ようになるなら素敵。できれば自分が要介護状態になるまでに自然言語でお願いしたことを実行してくれる優しい介護ロボットが登場するといいなぁ。

▲イラスト:ばじぃ


Google Pixel 6a SIMフリー [Charcoal]チャコール
¥42,990
(価格・在庫状況は記事公開時点のものです)

追記:連載名を「Google Tales」に変更しました。

《佐藤由紀子》
佐藤由紀子

IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。