いまから5年前、Google傘下のAI研究企業DeepMindは、歩き方すら知らないAI人形に障害物コースを駆け抜けるという使命のみを与えてひたすら試行錯誤を繰り返させました。その結果できあがったのは、かなりのキモさを伴う動きで走り回る不思議なAIモデルでした。
いま、DeepMindのAIモデルたちは、サッカーをプレイできるまでに成長しています。では、なにも知らないAIにどうやってサッカーを教え込んだのでしょうか。まったく何も情報を与えず、ただ「サッカーをやれ」と指示するだけでは、やはり奇行種的なキャラクターができあがってしまいそうです。
DeepMindはまず歩き方から始め、次にボールのドリブルの仕方、そして1対1や2対2での対戦までを段階的に教え込んで行きました。その途中には「neural probabilistic motor primitives (NPMP)」と呼ばれる手法を活用しています。
これは人間や動物に由来する運動パターンを使用したガイドによる全身動作の学習を含みます。今回はモーションキャプチャーしたサッカー選手の動きをお手本としてAIに見せて、それをAIキャラクターに模倣させるという、いわば仮想サッカー教室的な方法になりました。
DeepMindのNicolas Heess氏によると、NPMPの活用によって、AIモデルが最終的には「協調性を学び、それだけでなくトレーニング内容に組み込んでいなかった動作スキルまで体得した」と述べています。
ある程度動作を学習できたら、実験は第2フェーズとして現実の世界における約1年半分のトレーニングをシミュレーションさせました。ここではAIにできるだけボールの近くにとどまることに報酬を与えています。
AIはこのトレーニングを約24時間で完了させることができ、研究者らはさらに5年分のサッカーの試合のシミュレーションをAIに課して、選手の身のこなしやボールコントロール、さらに複雑かつ複合的な行動を自己学習させました。
さて、ここまではすべて単独での動作訓練を実施してきただけですが、スポーツでは大抵、対戦相手がいます。ここからの第3段階では、AIキャラクターに2対2で試合を行わせ、ボールをゴールにシュートさせることを目指しました。
しかし、ボールを自分だけで扱うのでなく、仲間と対戦相手を認識して、パス回しをするというテクニックを得るのは難しいことで、研究者は約20~30年分ものシミュレーション試合(実際は2~3週間で完了)を学習させていくと、MPNPの効果もありチームワーク的なスキルが表れ、チームメートの行動を予測して有利なポジショニングでパスを受けたり、得点しようとする動作の向上を見ることができたとのこと。
ただ、サッカーのルールはわれわれ(素人の)人間にとっても難しいところがあります。たとえばオフサイドや危険なタックルなどの反則行為、ボールがピッチを割った場合の処理などに関して、DeepMindはあえてこの段階でAIには教えず、エアホッケーのようにピッチ外に飛んだボールがピッチ内に跳ね返るようにしたりして、とりあえずプレーを中断させないよう、ルールを単純化しました。
最終的に、AIキャラクターたちは、そこそこ「らしい」プレイができるまでになっています。ここで特徴的なのは、見た目こそサッカーゲームのように見えるものの、各キャラクターのAIが自分で行動を決定しているところでしょう。仕組み上、そしてキャラクターの動きも、より「生」のサッカーに近くなっているということです。
プレイヤーの数が増えるにつれ、AIのトレーニングにかかる時間は大幅に増加する傾向があります。したがって、単純にプレイヤー人数を増やして行くのはいまのところ現実的ではないようです。とはいえ、将来的に11人のサッカーチームに仕立て上げることができれば、たとえばロボカップサッカーの3Dシミュレーションリーグに参戦するといったことも可能になるかもしれません。