先日、「Metaはメタバース事業を止め、AIに注力する」という英文の記事がバズった。結論から言えば、これは根拠のない憶測であり、Metaはメタバース投資を継続する。
そもそも、MetaはAI投資について昔から積極的だ。同社はAIとメタバース関連開発を絡めて説明することも多い。両者は地続きであり、切り離して考えていない。
昨年末に発売した拙著「メタバース×ビジネス革命」でも説明したが、拙著の中でも述べたが、メタバースを拡大していくにも、人間がメタバースを快適に利用するにも、AIのサポートは欠かせない。AIをいかに活用するかが、メタバースの行方を決める……といっても過言ではない。
一方、年末からのジェネレーティブAI(特に大規模言語モデル、LLM)が絡むものについては、拙著執筆時にカバーしきれなかった部分がある。もちろん、LLM活用の拡大は、メタバースに大きな影響を与える。
改めて、「なぜメタバースにAIが必須であるのか」をまとめてみよう。
※この記事は、毎週月曜日に配信されているメールマガジン『小寺・西田の「マンデーランチビュッフェ」』から、一部を転載したものです。今回の記事は2023年3月13日に配信されたものです。メールマガジン購読(月額660円・税込)の申し込みはこちらから。コンテンツを追加したnote版『小寺・西田のコラムビュッフェ』(月額980円・税込)もあります。
メタバースの課題は「量」だ
拙著でも指摘したが、理想的なメタバースの構築にはまだかなりの時間がかかる。利用者が使う機器にしろ、ネットワークサービスの側にしろ、難点が多々あるからだ。
とはいえ、技術的な難点の大半は、時間が解決してくれる。コンピュータの性能が進化し、事業にお金が投下されて技術開発が進めば、今より良いものは確実に作れる。HMDはその最たるもの、ともいえる。
一方で、アプローチ自体を変えていく必要がある部分も存在する。
それは「メタバースが求める量的な条件のカバー」だ。
仮に、自分から見える世界をすべて3Dで再現するとしよう。
机や椅子などの家具はもちろん、周囲の風景にある壁や扉、建物に至るまで、目に見えるものは全て3Dで作ることになる。もちろん、歩いている人(キャラクター)も全て3Dだ。
それらを作るのは大変なことだ。ゲームはそのジレンマとずっと抱えてきた。
だから、相当に精緻なゲームであっても、3D世界はどこか画一的である。
例えば、キャラクターの容姿や装飾は、バリエーションが豊かなようで相応の制約がある。アクセサリーはどこにつけられるのか、体のサイズバランスはどうなのか、衣服は左右対称かどうか。CGならどんな間接構造のものも作れるはずだが、こと「リアルタイムCGとして動かす」ということになると、プラットフォーム内ではそれぞれ、構造が定められている。
理由は2つある。
1つは、動かすための制約。
メモリ内に効率的に収納して処理する場合、無限にバリエーションがあるのは不利だ。自由度を上げるほどに、必要なパフォーマンスは上がる。プラットフォーム全体で使える処理の量やデータ転送量には制限がある。現実と同じ自由度・複雑さを持たせるのは不可能に近いので、「そこそこの自由度」で手を打つことになる。
もちろん、「そこそこ」の定義はプラットフォームの設計で決まるのだが、プラットフォーム間でアイテムやアバターを移行可能にするなら、そのことも配慮しておく必要がある。
もう1つは、作るための制約。
動かすために必要な「そこそこの制約」に合わせてデータを作る必要がある。モデルの複雑さについても、使えるテクスチャーにも制約がある。
実のところ、理想的なメタバースに近づいたとしても、こうした要素から解放されるとは考えづらい。
だから、複数のメタバースを移動するなら「データフォーマット」の統一、もしくは変換を想定した設計が必須だし、単一で動作するプラットフォームであっても、データに関するアーキテクチャ設計の重要さに変わりはない。
アーキテクチャにあった3Dデータをいかに効率的に作るか。メタバースにとってはそれが重要な要素になる。
AIで「モデルを最適に作る」には
それがAIとどう関係してくるのか?
作ったものをうまく使い回すことも重要だが、作り方自体も重要だからAIが必要になる。
現在は、フォトグラメトリなどを使って現実にあるものをデータ化しやすくなった。だが、単純にキャプチャした情報をメタバースに持ち込むと、前述の「プラットフォームに合う条件」からずれやすくなる。
「グランツーリスモ」シリーズで知られる、ポリフォニーデジタルの山内一典社長への取材中、データ製作に関するディスカッションをしていた時のことだ。フォトグラメトリと人間の手によるモデリングの違いを話していた際、こんな話になった。
「例えばガードレールを作る際、人間なら『ここは鉄板をプレスして曲げたもの』ということを意識してモデルを作ります。しかし、単純なフォトグラメトリだと、そうはいかない」
要は、人間が理解する立体物を作る場合、構造を人間と同じように理解していることが無駄を省きつつリアルにするには重要……という話だと理解した。
すなわち、3Dモデル製作をAIが助けてくれるためには、単に外観を理解するだけでなく、時には人間と同じように構造や重要な部分がどこかを理解する仕組みが必要、ということになる。
キャラクターも同様だ。
最近はモデリングやリギング(モデルを動かすための構造を組み込む作業)にしても、ソフトウェアの補助で楽にはなってきた。モーションについても、取得したデータをリアルタイム処理して自然な形で持ち込める。ソニーの「mocopi」はその典型例だ。
▲ソニーの小型モーショントラッカー「mocopi」
本物のメタバースが求める物量は圧倒的だ。利用者が飽きずに、定期的にやってくるようになるには、一定の間隔でデータが増え続ける必要がある。
「ユーザーが作ったデータが流通することが望ましい」と言われるのは、いわゆるUGC(User Generated Contents)の形で自律的に増えていくためだが、それだけでカバーできるわけではなかろう。
そこまで重要ではないが必要なデータはある。それらを低コストに作っていくには、AIがメタバース側の規格に合わせて自動的に作る、もしくは人が作る手間を大幅に軽減する仕組みを用意し、持続的にしていく必要がある。
AIが「中の人」になる時代を考える
メタバース内で活動するキャラクターについても同様だ。
すべてを人間が精緻に作り、「中の人」を人間が担当できるなら話は簡単だ。しかし実際には、対応可能な人数や就労時間の問題もあって、常に担当者を用意するのは難しい。
そうすると、「中の人」をある程度「ボット化」することは想定しておかなければならない。重要な部分だけを人間が担当し、それ以外はボットでの対応にする……というメリハリが必須になるだろう。
ChatGPTに代表されるLLMを使ったAIの登場によって、ボット化した際のクオリティは大きく上がってきた。どこまで精緻なものが作れて、どう導入できるかを、現状で正確に予想できる人はあまりいないだろう。そのくらい、進化が早すぎて先が読めない。
人間とチャットする感覚で楽しめるようになるまで、そんなに時間がかからないのかもしれない。
メタバースの「意識しない部分」をAIが作る
これら2つの要素には共通項が1つある。
それは「主要な要素は人間が担当してもいいが、そうでない部分はAIのサポートを受けないと回らない」という点だ。
「現実と同じ世界をデジタル空間で再現するのは無駄だ」という意見がある。世の中にすでにあるものの複製を作っても、品質的にもコスト的にも割に合わないからだ。
それはその通りだと思う。
ここでポイントは、「すべてをAIが作ることはないし、それは現実的に難しいし、そうすべきでもない」という点だ。
ジェネレーティブAIのアシストによってモデル・キャラクターなどの製作が行われるのは間違いない。一部はあまり人間の手を経ることなく作られるだろう。
人が暮らす「新しい空間」を用意するなら、ある程度の密度や快適さは必要だ。人間が現実(基底現実)で暮らしている時にも、すべての要素をしっかり把握しているわけではない。だが、自分が注目している部分以外も存在していることがリアリティをもたらしているからだ。
一方で、コアとなる部分を人間のアーティストが作ることになる、という点も変わりそうにない。見たこともないオリジナリティのあるものを作るのは当面人間だろう。
メタバースにたくさんの人がいることが必要なのは、そうした「自分に関わらない部分でのリアリティ」を他人の行動が担保してくれているからでもある。
キャラクターについても同様だ。
チャットAIの進化により、「話していて面白いAI」が登場するのは疑いない。そういうキャラクターは、アーティストの手間もコストもかけて、しっかりデザインされるベキだ。
ただ、AIとずっと話してもらうことがビジネス的にプラスでない場合も考えられるだろう。ショッピングやコンサートのためのサービスなのに、入口の係員とのチャットが盛り上がってしまっては本末転倒だ。AIをサービスに組み込むとは、ビジネス上AIがどう対応すると利益が最大化されるのか、ということまで考える必要がある、ということでもある。
人を3Dデータとして使う「デジタルヒューマン」の活用が増えている。ただ現状は、古典的な手法でCGデータを作っている場合がほとんどで、その製作でも利用でも、AIはあまり関わっていない。しかし、イメージ的にデジタルヒューマン=AI、的な見せ方をしていることは多く、少々危険な部分がある。
▲NVIDIAのOmniverseでデジタルヒューマンを活用している事例でも、AIを使っているのはフェイシャルアニメーションの部分だったりする
ここから先、人間を模したキャラクターをメタバース内で使うことは増えていくし、そこではAI生成とLLMが幅広く使われていくだろうが、「AIと人間の区別がつかない」時代には、今少し時間が必要かと思う。
だが、メタバースでは必須の要素であるのは間違いない。たとえ「村人A」のような重要な話をするキャラクターではなかったとしても、AIの力で「低コストだが必要十分な個性はある」形になれば、それは大きな価値を持つ。
力を入れるところは人間が作り、それ以外が低コストにできていく構造が必須になる、と筆者は考えている。
AIは人の無意識な動作をメタバースにもたらす
「注目するところは重要だが、それ以外も同時に重要」という考え方は、ユーザーインタフェース(UI)についても言える。UIの観点で言うなら、人間が無意識にやっていることをメタバース内で再現することの重要性、と言い換えることもできる。
例えば移動。
CGのキャラクターを3D空間内で移動させるのは簡単だ。だが、他のキャラクターを避けたりするのはちょっと面倒でもある。コントローラーで避けることはできるが、本来人間が歩いている時には、そういう部分を無意識に行なっているものだ。
目の前にあるものを掴む、という操作にしてもそうだ。本来、コーヒーカップを持つときの動きとぬいぐるみを持つときの動きは違う。それをスイッチのように切り替えるのは簡単だが、本当ならば、視界の中にあるものがなにかを認識した上で、手の動きや位置を合わせて「持ち上げる」ものだ。
そうした処理を、人間は「脳のバックグラウンド処理」で行なっている。それだけ人間は素晴らしい能力を持っている、ということだが、いつかはAIの力を借りて、仮想空間内でも似たような体験ができるようにならないといけない。
人間の感覚や動きを、すべて仮想空間内に持ち込むのは難しい。いわゆる「フルダイブ」技術が必要になるが、おそらく、あと30年は実現しない。
だとするなら、人間の感覚を騙しつつ、人間がやりたいことを仮想空間に伝える、UIレイヤーとしてのAIが必須になる。
意識しない部分のリアリティを担う存在としてのAIが必須ということは、仮想空間とは「人間が、AIの助けを借りて暮らす世界」という言い方もできる。
そこまでの世界を想定すれば、「AIはメタバースに必須」ということになるのだ。そして、フルダイブ技術はともかく、本稿で書いたAIの活用については、5年以内に十分可能になってくるだろう。
だから、AIを使ったメタバースはまだ先の話だが、そんなに遠い未来であり、備えておくべき可能性……ということになるのである。