第一回AIアートグランプリを受賞したので自分の作品解説とファイナリスト作品への感想。そしてその先(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

3月12日、「第一回AIアートグランプリ」の最終審査会および授賞式が行われました。筆者はそのファイナリストに残り、最終プレゼンをする、という話を前回のこの連載でしたのですが、結果、グランプリをいただきました。素晴らしい作品群の中から選んでいただいたことを心から感謝しております。

▲審査結果

プレゼンの時間は5分間。Keynoteで作成したプレゼンテーションを用意していたのですが、提出後に枚数規定を大幅に超えていることが判明し、動画に切り替えました。もったいないので、スライドの内容もここで再録します。5分間のプレゼン動画と併せて読んでいただくと全貌が掴みやすいかと思います。

▲プレゼン動画

▲用意していたKeynoteプレゼンスライド

以下は、Keynoteをテキストと画像で切り出したものです。

作品内容
2013年6月25日に他界した妻の生前の歌声と写真をもとに、AIで生成した歌声と画像により制作したミュージックビデオです。曲は、The Eagles原曲でLinda Ronstadtがカバーした「Desperado(ならず者)」。

制作過程
妻の歌声や話し声1時間分を学習させたDiff-SVCの推論プログラムで妻の歌声に変換したボーカルトラックを、iPadのGarageBandとMacのLogic Proで制作した演奏と合わせ、Memeplexでカスタム学習させた妻の写真23枚をもとに生成した写真16点を繋げました。

▲妻音源とりちゃん[AI]の画像と音声を生成する流れ

使用したプロンプト
Open Journey Prompt: a photo of Photographic portrait of Torichan cute Japanese girl, age 18, slightly slanted eyes, double eyelids, narrow eye bags, long hair, by Daniel F Gerhartz, by Shinji Higuchi, desperado in Hollywood movie style ,4K|||ugly, old ,malformation, bad anatomy, 6 fingers, bad limb, bad finger, hat, umbrella, single eyelids, distant eyes, skinny, chubby, kimono, anime, fewer digits, extra digits, 3 arms, 3 hands, unbalanced hands, bad piano, earing, pierce, distant eyes inaccurate limb , lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, blurry

使用した音声推論モデル
Diff-SVC model: model_ckpt_steps_150000.ckpt

解説
妻が18歳のときにバンド内交際を始め、23歳で結婚し、50歳で最期を看取りました。32年間にたくさんの歌を一緒に歌い、演奏しました。その活動をその後も続けるべく、歌声を素片に分割して接合するUTAU-Synthという技術で歌声合成をし、残された写真や動画でビデオを作り、公開するという活動を2013年から続けており、128曲のミュージックビデオを制作。2021年にはNHKでライブ演奏も放映しています。

しかし、ここ数年はミュージックビデオ制作に使える写真や動画は使い切ってしまい、8mmビデオや銀塩写真からのデジタル化も終えており、未公開のものはもう残っていません。UTAU-Synthは最新OSやApple SiliconベースのMac向けにアップデートされていないため、使うための環境は古いOSのMacのみ。古いOSが動作するMacを中古で手に入れたりもして続けていますが、近年は思うように制作ができない状況でした。

そこで登場したのが2022年夏に一般化した、AIによる作画です。Stable DiffusionをサポートしたMemeplexがDreamBooth手法によるカスタム学習を手軽にできるようにしてくれたおかげで、限りある妻の写真をもとにして、新たな写真、絵画を作り出すことが可能となり、創作の強い動機づけになりました。Stable Diffusionの派生型も含めていくつか学習させ、これまで存在したことのない、新たな妻の絵を見ることが可能になりました。

▲カスタム学習で使った妻の写真

歌声もAIで変わります。Stable Diffusionと同種のDiffusionモデルを使ったDiff-SVCという歌声の声質変換技術の登場により、より細かなニュアンスまで伝えられる歌声の生成が可能となりました。与えた音声の声質の特徴だけを変換する技術で、具体的には自分が歌ったボーカルトラックをNVIDIAグラフィックカードのCUDAで動かす推論プログラムで変換させるだけという、簡単な方法になりました。松任谷由実さんが荒井由実と共演したときに使ったものと同種の手法が、手元のPCで使えるようになったのです。

▲Diff-SVCの推論実行時のターミナル画面

写真(または絵画)と歌声という、2つのキーが組み合わさったことにより、あたかも妻とデュエットしている、自分の伴奏で歌ってくれているような状態を作り出せるようになりました。

この作品制作後、MemeplexではGIFアニメーションをサポート。D-ID Creative Reality Studioでは音声に合わせた口パクが、Kaiber.aiというサービスではプロンプトによる動画作成が可能になり、創作意欲をさらに高めてくれています。

他界した妻の写真がプロンプトにより生成されるということを、わかりやすく説明するために、「異次元・異世界にいる妻に向けてテキストメッセージを送ると、それを別世界で受け取ったカメラマンや画家が妻を撮影・描画して送り返してくれる」という設定をしているのですが、あまりに妻に似ている写真や絵が生成されると、「異世界画家や異世界カメラマン、がんばってるな」という気持ちになります。

▲とりちゃんの絵を描いている異世界画家(Open Journeyで生成)

生き物は死ぬと分解され、それがまたどこかで再構成されると言われていますが、学習された写真や音は記憶の海に還り、人の願望に応じて再構成されるのだ、といった考え方もできるのではないでしょうか。夢のように。ソラリスの海のように。

▲ソラリスの海で蘇生した妻(photorealistic-fuen-v1により生成)

こういうことは神話の時代から禁忌とされ、無理にやろうとすると世界が滅びそうになったり、黄泉の世界から攻撃されたり、不幸が訪れて実現しないとされていましたが、別にマッドサイエンティストでなくても、世界を滅ぼさなくても、人類を補完しなくても、愛する人とずっと一緒にいられる幻想を抱いて生き続けられるはずです。AIアートはその役に立ちます。

▲オルフェウスとウリュディケー(Stable Diffusionにより生成)

AIによって妻とデュエットし、新たな写真や動画を目にすることができるようになったおかげで、夢の中で妻と逢える頻度が以前の数十倍に上がったのもメリットの一つです。愛する人の声と姿に、生きながら近づくことができます。名曲の持つ素晴らしいパワーをお借りし、これからも一緒に歌い、形にしていくつもりです。

(プレゼンはここまで)



他の4人のファイナリストの作品・プレゼンはいずれも素晴らしいので、ぜひ見てください。中でも「そんな話を彁は喰った。」を投稿した機能美pさんが「作品の98%はAIを使っていない」ということを微に入り細に入り説明する動画はそれ自体、新しい作品にもなっていて、「機能美pの新作キター」とのファンからの驚きの声が上がっていました。AI使用率が極端に低いにも関わらず審査員特別賞を急遽新設し授与されたのも作品としての完成度を含め、納得かと思います。

TRICYCLE FILMさんの「Artificial Insanity」もまた無茶苦茶完成度が高く、「この締切(1月末まで)でこのレベルのAI動画は不可能だったはずでは」と疑問に思ったのですが、プルプル震える動画の謎を解き明かしてくれて、「そういうことか!」と驚くとともに、現在はそれが新しい技術で誰でも使えるようになっているという、AIの技術進歩スピードに翻弄されるクリエイターの哀しみに強く共感しました(自分はメリットしか享受していないので申し訳ないです)。

渚の妖精ぎばさちゃん対キモノアゲハ」の作者であるkoizoom1さんは、宮城県の地域振興、プログラミング教育など多方面で活躍している方。Googleスライドで作成したAI漫画に登場するキテレツなキャラクターそれぞれにちゃんと意味があるということをプレゼンで知ることができました。Memeplexでもプロンプトや新機能のテストにも非常に熱心に活動されていて、koizoom1さんがDiscordに投稿してくれた呪文を自分も大いに利用させていただいている先輩的存在です。漫画はnoteで公開されています

漫画作品「夢遊音速(ドリームマッハ)」を描いた朱雀さんは、筆者の3分の1にも満たない若さで、漫画の持ち込みで門前払いが続く中、AI漫画に活路を見出し、非常に高いクオリティの作画とストーリーを見せてくれました。AIはイネーブリングテクノロジーであることがそこからも伺え、これから新しい技術によってどこまで伸びていくのだろうという、AIネイティブ世代の登場を予感させる作品でした。作品はPixivで公開されています

これらの作品についての感想は、イベント中のトークショーに登壇したデジタルハリウッド大学院大学 白井暁彦客員教授note記事にていねいにまとめられているので、コンテストの内容をざっくり知るには読まれるといいと思います。

コンテストのフル動画はこちらから。筆者のプレゼンは43分30秒付近あたりです。プレゼン後に、樋口真嗣監督による講評をいただきました。「天馬博士がアトムを作ったように」という、ツッコミやすいコメントをいただくという優しさがうれしかったです。そう言われたら、「(ロボット)サーカス団には売りません」と返すしかないじゃないですか。

▲樋口真嗣監督に講評していただいた

商品としていただいた、GeForce RTX 4080搭載のガレリアPCは、当日に無事に持ち帰りました。セッティングが済んだら、LLMや新しい生成系AIを動かして、その成果をテクノエッジの連載で発表できるように勉強したいと思います。

次回は普通なら1年後となるのですが、ドッグイヤー以上のスピードで突き進む生成系AIの急成長を考えると、開催時期をもっと早めないといけないと関係者は考えているようです。次回への投稿を考えている方はすぐに準備を始めておいた方がいいかもしれません。

この連載を続けて読んでいただいている方はお分かりだと思いますが、その後も妻音源とりちゃん[AI]の作品作りは続けていて、実をいうとグランプリ授賞式前にも1曲作っていました。以前紹介したKaiber.aiでアニメーションをつけた作品です。左チャンネルに自分とUTAU版妻音源とりちゃん、右チャンネルにDiff-SVC版妻音源とりちゃんを配置しています。

それだけモノを作りたいという意欲が湧き出る状況なのです。みなさんもどうですか?

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。