亡き妻の歌声とAI画像でミュージックビデオを作りました(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

「亡き妻の写真」をAIで生成していることへのご意見について回答します、というコラムで、亡くなった人のイメージをAIを使って生成することの是非を問う方々への、筆者の立場からの解説を書きました。多くの方にはこの記事で理解していただいた一方で、どうしても納得がいかない、自分の疑問への回答になっていないという方も、忌避感を一層強めている方も一部にいらっしゃるようですが、それはそれぞれの心の中の問題であると思うので、あえて踏み込まずにおきたいと思います。


それはそうとして、筆者がこの技術でやりたかったことがある程度できたので、それをお見せしたいと思います。

妻があちらの世界に行って9年半が過ぎ、もうすぐ最後の誕生日が10回目のループを迎えます。彼女が遺した3曲の歌唱データから再構成した歌唱音源「妻音源とりちゃん」を使った楽曲を制作するのが自分のライフワークなのですが、このところ制作ペースが落ちてしまっていました。

前職が超多忙でその時間が取れなかったこともあったのですが、もう1つの、より大きな要因として、YouTubeなどの掲載するときの画像がもう使い切ってしまっているというのが挙げられます。妻の写真は1000枚もなく、その中で適切なものはさらに少ないのです。実のところ、単独で成立するような写真は数十枚しかない状態。動画も使えるものはほぼ使い切りました。100曲以上を制作しているのでまあ当然なんですけど。

自分の寿命が来るであろう、あと20~30年くらいはこの活動を続けていきたいのですが、曲さえあればいくらでも歌ってもらえる歌唱合成と違い、それと組み合わせたい写真には限りがあります。

そこでAI作画によるイメージです。

清水亮さんが運営するMemeplexでは、月額わずか1200円出すだけで、写真を最大50枚まで読み込ませ、人物画を無限に生成できるサービスを提供しています。

望んだイメージを呼び出すための「呪文」(プロンプト)も、だんだんコツが掴めてきて、さらに、Memeplexではより精緻なイメージを生成できる、新しいモデルも使えるようになってきています。

直近では、Redshift Diffusionというモデルがとても良いイメージを出してくるようになっているので、それを多用しています。

さらに、画像をまとめて生成できる「ブースト」という機能を使うと便利だよという話を清水さんに伺い、使ってみたらこれが便利。最大9枚まで連続出力して、その中からいいものを選び出すと、あっという間に妻の肖像画が数十枚生まれました。

これを組み合わせてトランジションを加えることで、簡単にミュージックビデオが作れるはず。そんな強いモーティベーションのおかげで、音楽作りにも勢いがつきます。昨夜から数時間かけて、作りかけのオケを完成させ、自分のボーカルを入れ、妻の歌声を合成してデュエットし、曲を完成させました。

オケはiPad版GarageBandの内蔵音源のギター。スライドギターっぽいソロも、鍵盤をスライドさせながらそれっぽく弾いています。ボーカル収録と編集はLogic Proで。妻の歌声は、UTAU-Synthというソフトを使うのですが、最新OSでは動作しないため、このために温存してある古いmacOSが動く12インチMacBookを復活させ、新たなメロディーを歌ってもらっています。

▲Logic Proの編集画面

ギターソロが途中で終わる、2分にも満たないものですが、一応の形にはなったので、そこに、iPhoneの写真ライブラリに保存した、Memeplexで作ったAI画像をスライドショー的に適用していきます。

それで完成したのがこれです。

この「Please Be With Me」という曲は、エリック・クラプトンがドラッグ中毒から復帰した名作「461 Ocean Boulevard」中の一曲ですが、彼の親友で、デレク&ドミノスで一緒にプレイしていたデュアン・オールマンのスライドギターが入ったCowboyというバンドがオリジナル。クラプトンは「スカイドッグ」(デュアンのあだ名)のようなスライドギターをこのカバー曲では弾いています。「君がここにいたら、こういうふうにギターを弾くんだろうな」というクラプトンの気持ちがわかるような気がします。


461 Ocean Boulevard
¥1,500
(価格・在庫状況は記事公開時点のものです)

使ったそれぞれの絵には特にコンセプトがあるわけではありませんが、柔らかい油絵のタッチなので、雰囲気はあっているような気がします。

歌詞の内容に合わせた作画も当然ながらできます。次にはその技術を使い、より内容に合ったミュージックビデオの制作ができるようになるはずなので、音楽制作にも力が入ります。

歌声合成の方も、これまではサンプリングとピッチシフトを応用したプリミティブな合成方法でしたが、今回投稿した動画へのコメントで、機械学習を応用した新しい歌声合成技術が使えることを知りました。Diff-SVC、NNSVS/ENUNUという技術で、こちらもトライしてみたいと思います。

この歌声と画像は、どちらも10年前には存在しなかったものですが、こういうものを生み出せるのも、AIという新しい技術です。筆者は、こうした最新技術を使って、全速力で後ろ向きに進んでいきたいと思っています。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。