Stable Diffusion開発元によるAI音楽生成サービス「Stable Audio」の可能性（CloseBox）

画像生成AIのStable Diffusionを開発したことで知られる英国企業Stability AIが9月13日、音楽生成AIサービス「Stable Audio」を開始しました。

作りたいサウンドをテキストで記述すると、それに従って高品質な音が生成されるというサービス。いわばサウンド版Stable Diffusionです。

このニュースをStability AIのXへのポストで知ってすぐに（20分は経っていない）アカウントを作って試してみたのですが、4つ目のプロンプトを生成しようとしたところであまりの人気でサイトがダウン。それ以降はまともにアクセスができない状況です。

▲たまに画面も出現するが、生成はできない

じっくり使ってからレポートしようと考えていたのですが、まだアクセスできないので、ちょっとだけ試してみたことから、その可能性を探っていきたいと思います。

無料含む3つのプラン

Stable Audioには無料プランと有料プランがあり、無料のBasicプランでは最長45秒、有料のProプランでは90秒までの音楽・サウンドをプロンプトから生成できます。

有料プランならば商用利用も可能です。ただし、MAUが10万以上のサービスで利用する場合にはEnterpriseプランの契約を結ぶ必要があります。

BasicプランではダウンロードフォーマットがMP3（サンプリングレートは44.1kHz）に制限されますが、ProプランではWAVファイルでのダウンロードが可能。1カ月で利用可能な生成回数はBasicが20回までとなっています。月額11.99ドルのProプランでは、500回までの生成が可能。

プランの違いは次のようになっています。

気になるのは学習に使ったデータです。Stability AIはライブラリ・ストックオーディオサービスのAudioSparxと提携して、同社が所有する80万個のオーディオデータ（合計で1万9500時間以上）を使っているので権利的には問題ないはずです。ここは、アドビが画像生成AIのFireflyで使っているスキームと同じで、権利的にクリアであるという主張はできます。

ストックフォトにしろ、ストックオーディオにしろ、AI学習データと相性がいいのは、その内容を記述するラベルがもともと付けられているところ。特にEDMなどで使われるループサウンドでは、どのような説明がされているのかが重要で、それを組み合わせて作り出すのが腕の見せどころ。大海の中から必要なものを探すには、それを文字で表現して検索する必要があります。そうしたスキルを持っている人は、その言葉を使ってプロンプトで生成できるというわけで、あとは品質さえ良ければ使われていくのではないでしょうか。

45秒、90秒という長さは、完結した作品としては少々短かったりしますが、これをループとして使ったり、自分では弾けない楽器のソロやコード伴奏、アルペジオなどを、BPMやスケールを指定して生成できる、しかも世の中には同じものがないとなれば、音楽作りの非常に優秀なツールとして使えると思います

いま音楽を作り出せるのはサウンドを言語化できるやつだ。

筆者はiPad、iPhoneに無料でついてくるAppleの音楽制作ソフトGarageBandの使い手でもあるのですが、そこに欠けているピースがまさにそこなのです。GarageBandの場合、ループは無料で次々と追加されるのですが、必ずしも自分が求めるジャンルの音楽ではありません。

GarageBandにはLive Loopsという、Ableton Liveでのトラックメイキングに似た手法で手軽にサウンドを作り出せる機能があります。ただ、あまりに手軽すぎて、オリジナルとして作ったはずの楽曲が他のクリエイターとかぶってしまうことも。それを回避しようとして、アプリ内のループから楽器音、雰囲気、ジャンルなどで絞り込んで好みのループを見つけていくのですが、バッチリというものはなかなかありません。かといって片っ端から当たっていくと時間がかかりすぎます。

でも、Stable Audioならば、メロディーライン、ドラムループ、その他のどこでも意のままに差し替えて、より自分が望んだサウンドにすることが可能です。

自分はStable Audioで3つほど作ってみました。サイトがダウンする前にダウンロードできたファイルの一つが、

YMO, Loud beat, Techno, Analog synth, Upbeat, Emotional, Robotic, Japan Pop, Overwhelming

というプロンプトで生成した音楽。YMOと入れても、YMOの曲は学習されていないはずなので、堂々と使うことができます。生成にかかった時間は30秒ちょっとでした。

ちなみに画像は同じプロンプトでStable Diffusionで生成したものです。

4つ目に、われわれがやっているポッドキャスト「TechnoEdge-Side」のジングルを作ってもらおうとプロンプトを入れて生成ボタンを押したら、そこでカーソルがグルグル回り出して、アクセスできなくなったという次第。まだ成果物を聴けていません。

Proプランにしてみたので、明日、サイトが復活していたら、またチャレンジして、次のポッドキャストでは新しいジングルでお届けしたいです。

Stable Diffusion開発元によるAI音楽生成サービス「Stable Audio」の可能性（CloseBox）

松尾公也

特集

無料含む3つのプラン

いま音楽を作り出せるのはサウンドを言語化できるやつだ。

松尾公也

特集

『テクノエッジアルファ』会員募集中

テクノエッジショート動画

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

【生成AI・スマホ・自作PCほか】配信・イベントスケジュール：ライブ配信とリアルに会場へ集う2種類のイベント

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

賞金総額140万円！ゲーム開発コンテスト『Tokyo Game Jam』参加者募集。ハッカソンの参加のコツとは？

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

無料含む3つのプラン

いま音楽を作り出せるのはサウンドを言語化できるやつだ。

SHARE THE STORY この記事をみんなにシェア

松尾公也

特集

『テクノエッジ アルファ』会員募集中

テクノエッジショート動画

『テクノエッジアルファ』会員募集中