今年2024年は生成AIの、特に音楽と動画において画期的な進歩が継続して行われた年でした。この連載でもずっと追いかけてきたテーマでもあるので、特に音楽・動画生成AIについて、自分が作った動画で振り返ります。
2023年の生成AIを振り返った記事はこちら。
■2024年1月:台湾のAIアート展にAI作曲による生成AIオリジナル曲ミュージックビデオを展示
1月27日から5月12日まで、台北当代芸術館のAIアート展覧会「Hello Human!」に筆者の作品2つが展示されました。
一つは第一回AIアートグランプリを受賞した「Desperado」(The Eaglesのカバー曲)、もう一つは、「星埋める夜に」という、ChatGPTとAI作曲サービスのSunoを活用したオリジナル曲です。
まず妻の写真を学習したStable Diffusionモデルで星空を見ている画像を制作。その画像をChatGPTに読み取らせて作詞。その歌詞を元にSuno で作曲・演奏・歌唱。歌唱をRVC(妻の歌声を学習)に置き換え、といった工程。
ChatGPTのマルチモーダル機能で、画像から歌詞を考えて曲につなげるというプロセスができました。これは、現在のSunoモバイルアプリで、カメラで撮影してそのまま曲にするという機能につながっています。
筆者の展示を見た人たちの反響はポジティブなものだったそうです。
■2024年2月:2分の曲を一気に作れるSuno v3登場。架空のバンドによる架空のコンセプトアルバムを数時間で制作し、商業配信も
Sunoがv3にバージョンアップし、2分までの曲を一気に作ることが可能になり、さらに伸ばすこともできることから、プログレッシブロックのアルバムが作れるのではないかと判断。The BeatlesのSgt. Peppers Lonely Hearts Club BandやPink FloydのThe Dark Side of the Moonを目指したコンセプトアルバムを数時間で作りました。これはプロによるマスタリングを経て、各種ストリーミングプラットフォームで販売されています。
コンセプトをChatGPTにゼロから考えさせ、それぞれの楽曲の歌詞や音楽スタイルも作らせ、作曲・演奏・歌唱はSuno。アルバムカバーもChatGPTが考え、それをMidjourneyで制作。バンドメンバーのプロフィール、メンバーのアーティスト写真、バンドによるインタビューなどもChatGPTが考えました。
■2024年3月:大河ドラマ「光る君へ」スタート記念。枕草子ラップ
大河ドラマ「光る君へ」に触発されて作ったのが枕草子の冒頭「春は曙」のラップバージョン。ヒップホップが出てきた頃から構想していた「ようよう白くなりゆく」を「YOYO」でラップにしたいという夢が叶えられました。
ところで、最終回を見て思い出したのが、かつてのライバルだったスティーブ・ジョブズとビル・ゲイツが過去を懐かしく振り返るシーンでした。
■2024年4月:Sunoの強力なライバルUdio登場。超リアルなボーカルが衝撃的
「Sunoなんか霞んじゃうぜ」という前評判だったAI作曲サービスUdio(ユーディオ)が登場。たしかに生っぽいボーカルは今でも十分に通用します。ただ、一回で生成できる曲の長さが短く、癖も強いので総合的にはSunoに追いつくことができずにいる感じでしょうか。
Udioは日本語歌詞を当時は作れなかったので、ChatGPTを使いました。ビデオダウンロードもできたのでそのまま使用。
■2024年5月:数秒の音声があればその人の声でリアルタイム歌唱できるVocoflexを試す
AI歌唱合成ソフトSynthesizer Vで知られるDreamtonicsから、リアルタイムでボイチェンができる歌唱ソフトVocoflexが登場しました。そのベータユーザーとなったので、妻や自分の歌声を学習させてリアルタイム歌唱してみました。
12月14日、妻が在籍していたバンドで、Vocoflexを使って筆者が歌唱することで、妻の歌声でリアルタイムでハーモニーをつけることに成功しました。
■2024年6月:Suno v3.5で4分の高品質WAV提供。Luma Dream MachineによるImage to VideoがSoraレベルに
バージョン3.5で2分間制限が最長4分に。延長時間も2分になりました。
Sunoは作詞機能が優れていて、キーワードを入れるだけで歌詞にして、それを曲にできます。それを使い、最大4分の曲をいくつも作ってみました。
Lyricsに「香り」「痺れる」といった身体性のキーワードを入れ、曲調はブルースで作った楽曲。ビデオ出力もSunoで。
この中の「痺れてる」という曲はボーカルも演奏も自分史上最高レベル。これが「痺れてる」というキーワードだけでできるとかすごすぎるだろう、と。そして、ボーカルスタイルは先ごろVOW WOWで復活した人見元基を思わせます。
この時点で、AI作曲は常人を超えたのだと思います。
6月はもう一つ、大きな動きがありました。Luma Dream Machineの登場です。
2月に発表されるも使えない状態が続いてたOpenAIのSoraのようなAI動画生成を、サブスクしていれば誰でも使えるようになりました。
Image to Video。写真や画像から動画を作成可能なDream Machineを使ったミュージックビデオが大きな反響を呼びました。その結果、テレビ朝日の取材を受け、こちらも大きな反響を呼びました。
・「亡き妻と交流するための窓」思い出が動き出す…生成AI最新技術 写真→動画が簡単に(テレビ朝日)
この動画の反響は中国語圏でも大きかったようです。
・「永遠超愛妻子」日本藝術家松尾公也 以Luma AI復活了亡妻
■2024年7月:動画生成AIのRunway Gen-3 Alpha登場。高品質でリップシンクも可能に
動画生成AIとしては最古参であるRunwayから、Sora世代のサービスRunway Gen-3 Alphaが登場しました。
前バージョンのGen-2から使えるリップシンクもサポートしています。この時点ではImage to Videoは未サポートです。
7月にはRunway Gen-3だけでなく、KLING、Viduという中国製動画生成AIも参入。
Runwayも負けておらず、Image to Videoをサポート。この辺りから動画生成AI分野での熾烈な競争が始まっています。
筆者の作例も、複数のサービスを組み合わせたものに変わってきています。
■2024年8月:超高速生成のRunway Gen-3 Alpha Turboと超高性能画像生成FLUX.1のLoRA
2024年8月は、新しい技術の登場がさらに加速します。Runway Gen-3は10数秒で10秒の動画を生成できるAlpha Turboになり、生産性を爆上げしました。月額95ドルのUnlimitedプランが使えるので、これ以降の動画生成はRunwayがメインとなっています。
静止画でも大きな動きがありました。Stable Diffusionの開発者たちが独立して開発した新しい画像生成AIのFLUX.1がオープンソース公開され、LoRAも簡単に作成できるようになりました。
これらを使ったミュージックビデオの作例では、これまでうまくいかなかった指の表現がちゃんと出てくる映像を多用しています。
8月末には筆者のSuno解説本が出版されました。この後、Sunoはv4になり、だいぶ機能が追加・改変されてますが……。
■2024年9月:ChatGPTの高度な音声が利用可能に
感情豊かな音声対話が可能なChatGPT Advanced Voice Mode(高度な音声)がようやく利用可能になりました。これを使って、ポッドキャスト番組を作ってみました。
最近ではさらに進化しており、画面共有やカメラの映像を見ながら対話もできるようになっています。Geminiでも同様なことが可能。
9月には故郷の長崎に帰省し、古い写真を動画で甦らせるという体験もしました。亡き父、亡き友人について、動く写真を見ながら語りました。
■2024年10月:AI作曲がお茶の間デビュー。ハマスカ放送部でSunoをハマ・オカモト、齋藤飛鳥に教える
10月には台湾・高雄で開催されたTTXCにAIゲームイベントの審査員として参加。その後はテレビ朝日の番組「ハマスカ放送部」に出演し、SunoによるAI作曲の指導を行うという多忙な日々を送りました。
筆者がその場でSunoで作曲した「トンツカタン森本の歌」はその後も番組で取り上げられ、定番曲として歌い継がれているようです。
■2024年11月:特定人物の画像生成AIとして脚光を浴びたHeyGenは音声モデルも搭載
リップシンクで最先端を走っているHeyGenがファインチューニングをサポートし、画像生成AIとしても実力があることを示しました。実際に試したところ、FLUX.1 [dev] のLoRAと比較しても遜色のない、むしろこっちの方がいいのではないかというレベルに。
さらにボイスクローン技術も搭載してTTS(Text to Speech)も可能に。この技術を使って、妻のクックパッドレシピをリップシンクで読み上げてもらいました。
11月にはSunoも超強力な機能「Persona(ペルソナ)」を投入。歌声と音楽スタイルを固定できる機能で、オリジナルの歌手を作れるのです。これで、筆者自身と妻の歌声の分身を作りました。これで、二人の歌声でダイレクトに曲が作れるようになりました。
■2024年12月:Soraが使えるようになり、GoogleはライバルVeo 2を発表。MacBook Pro(128GB)内製でどこまで対抗できる?
2月に発表されたOpenAIのSoraが、ヴェイパーウェアではなくなりました。実際に使ってみて、たしかに画像はいいけれども万能というわけではないことがわかりました。
Googleが対抗してVeo 2を出しましたが、現在ウェイティングリスト状態。品質は良さそうですが、例によってGoogleなのでSoraよりさらに自主規制が厳しくなりそうで、オープンソース勢に期待したいところです。
現在はHunyuan Videoが評価が高いですが、Image to Videoがまだ。筆者はローカルマシン(M4 Max MacBook Pro)で動かしているPyramid Flowがそこそこの高画質なのでさらに高速化するといいなあ。
一方、静止画の最新モデルであるGoogle Imagen 3(ImageFX)でテキストプロンプトで生成した画像をSoraで20秒の動画にし、Suno v4で音楽をつけた作例。これは全工程が2、3分でできます。
■筆者の半生を描いたドキュメンタリーとこの記事をChatGPTと語るポッドキャスト
さて、今年の締めくくりに、筆者の半生を描いた長編ドキュメンタリー(1時間51分)を紹介します。
技術的なことはほぼ取り上げていませんが、筆者が生成AIを使って妻との交流を目指すに至った経緯などがわかると思います。
この記事をChatGPTのAdvanced Voice Modeと共有しながら、二人でポッドキャストを収録してみました。
ポッドキャストの中でChatGPTが提案してくれた歌詞を、Suno v4で曲として完成させたので、それもあわせてどうぞ。
作詞:ChatGPT
作曲・演奏:Suno v4
歌:妻音源とりちゃん[AI] Suno Persona
画像:HeyGen
動画:Runway Gen-3 Alpha Turbo、Sora