Stable Diffusion開発元によるAI音楽生成サービス「Stable Audio」の可能性(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

画像生成AIのStable Diffusionを開発したことで知られる英国企業Stability AIが9月13日、音楽生成AIサービス「Stable Audio」を開始しました

作りたいサウンドをテキストで記述すると、それに従って高品質な音が生成されるというサービス。いわばサウンド版Stable Diffusionです。

このニュースをStability AIのXへのポストで知ってすぐに(20分は経っていない)アカウントを作って試してみたのですが、4つ目のプロンプトを生成しようとしたところであまりの人気でサイトがダウン。それ以降はまともにアクセスができない状況です。

▲たまに画面も出現するが、生成はできない

じっくり使ってからレポートしようと考えていたのですが、まだアクセスできないので、ちょっとだけ試してみたことから、その可能性を探っていきたいと思います。

無料含む3つのプラン

Stable Audioには無料プランと有料プランがあり、無料のBasicプランでは最長45秒、有料のProプランでは90秒までの音楽・サウンドをプロンプトから生成できます。

有料プランならば商用利用も可能です。ただし、MAUが10万以上のサービスで利用する場合にはEnterpriseプランの契約を結ぶ必要があります。

BasicプランではダウンロードフォーマットがMP3(サンプリングレートは44.1kHz)に制限されますが、ProプランではWAVファイルでのダウンロードが可能。1カ月で利用可能な生成回数はBasicが20回までとなっています。月額11.99ドルのProプランでは、500回までの生成が可能。

プランの違いは次のようになっています。

気になるのは学習に使ったデータです。Stability AIはライブラリ・ストックオーディオサービスのAudioSparxと提携して、同社が所有する80万個のオーディオデータ(合計で1万9500時間以上)を使っているので権利的には問題ないはずです。ここは、アドビが画像生成AIのFireflyで使っているスキームと同じで、権利的にクリアであるという主張はできます。

ストックフォトにしろ、ストックオーディオにしろ、AI学習データと相性がいいのは、その内容を記述するラベルがもともと付けられているところ。特にEDMなどで使われるループサウンドでは、どのような説明がされているのかが重要で、それを組み合わせて作り出すのが腕の見せどころ。大海の中から必要なものを探すには、それを文字で表現して検索する必要があります。そうしたスキルを持っている人は、その言葉を使ってプロンプトで生成できるというわけで、あとは品質さえ良ければ使われていくのではないでしょうか。

45秒、90秒という長さは、完結した作品としては少々短かったりしますが、これをループとして使ったり、自分では弾けない楽器のソロやコード伴奏、アルペジオなどを、BPMやスケールを指定して生成できる、しかも世の中には同じものがないとなれば、音楽作りの非常に優秀なツールとして使えると思います

いま音楽を作り出せるのはサウンドを言語化できるやつだ。

筆者はiPad、iPhoneに無料でついてくるAppleの音楽制作ソフトGarageBandの使い手でもあるのですが、そこに欠けているピースがまさにそこなのです。GarageBandの場合、ループは無料で次々と追加されるのですが、必ずしも自分が求めるジャンルの音楽ではありません。

GarageBandにはLive Loopsという、Ableton Liveでのトラックメイキングに似た手法で手軽にサウンドを作り出せる機能があります。ただ、あまりに手軽すぎて、オリジナルとして作ったはずの楽曲が他のクリエイターとかぶってしまうことも。それを回避しようとして、アプリ内のループから楽器音、雰囲気、ジャンルなどで絞り込んで好みのループを見つけていくのですが、バッチリというものはなかなかありません。かといって片っ端から当たっていくと時間がかかりすぎます。

でも、Stable Audioならば、メロディーライン、ドラムループ、その他のどこでも意のままに差し替えて、より自分が望んだサウンドにすることが可能です。

自分はStable Audioで3つほど作ってみました。サイトがダウンする前にダウンロードできたファイルの一つが、

YMO, Loud beat, Techno, Analog synth, Upbeat, Emotional, Robotic, Japan Pop, Overwhelming

というプロンプトで生成した音楽。YMOと入れても、YMOの曲は学習されていないはずなので、堂々と使うことができます。生成にかかった時間は30秒ちょっとでした。

ちなみに画像は同じプロンプトでStable Diffusionで生成したものです。

4つ目に、われわれがやっているポッドキャスト「TechnoEdge-Side」のジングルを作ってもらおうとプロンプトを入れて生成ボタンを押したら、そこでカーソルがグルグル回り出して、アクセスできなくなったという次第。まだ成果物を聴けていません。

Proプランにしてみたので、明日、サイトが復活していたら、またチャレンジして、次のポッドキャストでは新しいジングルでお届けしたいです。

《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。