米国のAIスタートアップ企業Sunoが提供している同名の作曲サービス「Suno」については何度も取り上げていますが、2月22日、大きな動きがありました。現行のバージョン2を大幅に改良したバージョン3(V3)のアルファ版が、有償プランであるProとPremiumユーザー向けに提供開始されたのです。
Suno V2の時には、Stable Diffusionで生成した妻の画像をChatGPT(GPT-4V)のマルチモーダルで解釈させて、それを元に出来上がった曲を自分で歌い、さらに妻の歌声に変換して、それを台北当代芸術館にアート作品として提出し、現在展示されています。それがさらに向上するというので、これはもう使わざるをえません。
筆者はProプランに加入しており、早速がっつり試してみたので、ファーストインプレッションをレポートしたいと思います。結論からいうと、もはや実用域です。
Sunoによれば、V3の改良点は次のとおり:
・オーディオ品質の改善
・1クリップの長さが最長で2分までに
・作曲の時間を短縮
・表現力の向上
・インストゥルメンタル曲(ボーカルなし)指定が可能に
・カバーする言語を拡大
ユーザーインタフェースで一見してわかる違いは2つ。
・作曲AIモデルをV2(従来)とV3 Alpha(新設)で選択できる
・Instrumentalボタン(新設)で、インスト曲を指定できる
では、インスト曲から試してみましょう。
インスト曲を作る
Sunoの作曲には通常モードとカスタムモードの2種類があります。通常モードだと、Song Descriptionに、その曲のジャンルやヴァイブを記述するだけです。ここには既存のアーティスト名や曲名などを入力することはできません。
ここに何を入れるかは悩ましいところですが、今回はChatGPTにお願いしてみます。好きな絵を参照して、それをアコースティックギター曲にするとしたらどのような音楽的記述ができるか、という依頼です。
使ったのは、マクスフィールド・パリッシュの「ヴィオレッタ夫人」。
この画像から受ける印象を、アコースティックギターによるインストゥルメンタル曲の音楽的なスタイルとして記述してください。英語で
それに対する回答はこれです。
The painting evokes a serene and contemplative mood, reminiscent of a time past with its classical attire and poised stance. An instrumental acoustic guitar piece inspired by this image might be styled in a classical or neoclassical manner, interweaving intricate fingerpicking with a gentle, flowing melody. The tempo would be andante, allowing each note to resonate and reflect the quiet dignity of the scene. Harmonics might be used sparingly to add a sense of ethereal beauty, emulating the soft glow of the scene. The piece would likely stay in a major key, with occasional minor chords to add a hint of nostalgia or wistfulness. The overall structure could be through-composed, each section flowing into the next, like a gentle stream of thought or a quiet conversation.
これだと長すぎたようで、
The painting evokes a serene and contemplative mood, reminiscent of a time past with its classical attire and poised stance. An instrumental acoustic guitar piece inspired by this image might be style
200文字までしか認識していませんでした。Song Descriptionへの入力はこの辺がリミットのようです。それでも作ってくれました。
Sunoは一度に2曲を同時に作曲します。その1曲目はエリック・クラプトンの「Tears in Heaven」を思わせる、なかなかいいメロディーで、筆者が意図したものにかなり近いです。
ちなみに、同じ絵から受けた印象を元に作られたインストゥルメンタル曲としては、四人囃子の「レディ・ヴァイオレッタ」があります。名曲です。
どちらもきっちり2分。V2では1分ちょっとの長さしか作れなかったのに対し、大幅な進化です。また、作曲のスピードも上がりました。正確には、プレビューできるまでの時間が短縮されています。以前は1分から2分くらいの作曲時間を要していたのですが、V3 Alphaでは、20秒くらい経つとプレビューが可能になります。聴きながらも作曲は続けていて、さらに1分ほどすると、曲が完成してダウンロードもできるようになります。
1曲目については、アウトロまで行っていました。余った分はもう1コーラス行きそうになっていましたが、切ってしまえば問題なし。
インスト曲の場合には、カスタムモードにするメリットはあまりないかもしれません。歌詞フィールドは消えてしまいますし、Style of Music(音楽スタイル)に記述できるテキストは120文字までに制限されます。メリットといえば、タイトルを指定できるところくらいでしょうか。
The painting evokes a serene and contemplative mood, reminiscent of a time past with its classical attire and poised sta
ここまでを音楽スタイルに記述して、Lady Violettaのタイトルをつけるとこんな曲ができました。ピアノ曲のインストでいい感じだな……と思ったら、途中から歌い出しました。「ふどいー、しもいはんなんてうー。あぬしばいたすかってー」日本語っぽいけど意味が聞き取れません。これは異世界の歌なのでしょうか? 「カバーする言語を拡大」って未知の言語まで? そして何気にいいメロディーで感情が込められている気がします。一体どういう意味なんだよこれ……。
ボーカル曲はどう?
インスト曲がなぜか歌い出すのではなく、ちゃんとしたボーカル曲も行ってみます。Sunoは「Make Random Lyrics」ボタンで歌詞の自動生成ができるので、標準モードで、まったく手間をかけずに作ったのがこれ。音楽スタイルもランダム生成できるので、そこからElectric Bluesに。
6曲目にできたのが次の曲。なかなか良いブルースです。ギターのフレーズはバッチリだし、ボーカルも上手い。
この歌詞もいい感じなので、これをChatGPTに日本語歌詞にしてもらって、今度はカスタムモードで日本語のブルースを作ってもらいました。
何曲か作ってもらったら、名曲が生まれた気がしたので、途中でHeyGenを使ったAIリップシンク(人物画像はMemeplexのBRAV5で生成)を挿入してみました。
同じ歌詞の別バージョン。音楽スタイルを、「Sentimental Acoustic Blues」に。
無限に遊べてしまいます。いい曲ができたら、音源分離して、ボーカルを参照しながら自分で歌うなりすればいい。音質もだいぶ向上したようです。V2がAM音質だとすれば、V3 AlphaはFMくらいまで達している印象。
リスナーとして楽しむだけではもったいない。そのくらいの品質の楽曲ができてしまいます。V2でも相当すごかったのが、V3 Alphaなら何回かガチャを回せばほぼ確実に満足できる曲が生まれます。
SunoはBasicプランでも、Microsoft Copilotのプラグインでも無料で使えますが、V3サポートはあったとしてもだいぶ先になるのではないでしょうか。月額10ドルからのProプランで時間を溶かしてみませんか?
作例を1本の動画にまとめました。
Suno V2の作例もまとめてみました。TechnoEdge-Sideの現在のジングルを制作するときに使ったもので、冒頭の1曲以外は全部没曲です。