歌詞と音楽スタイルを入力すると、ボーカル入り楽曲を生成できるAI作曲ソフトにおいてはSunoが頭一つ抜けていて、Udioがそれを追う形です。オープンソース版としてはStable Audioなどがありますが、まだ質が低く、歌唱もできない状態。
そこに、オープンソース版でSuno並に品質が高くて歌もうたえるAI作曲ソフト「YuE」が登場。Multimodal Art Projectionと香港科技大学(HKUST)が共同開発したものです。
Yueとは、音楽を意味する中国語。英語、中国語(広東話・普通話)、日本語、朝鮮語をサポートしています。
GitHubでコードを、チェックポイントはHugging Faceで公開しています。現行バージョンでは30秒の楽曲を生成するのにRTX 4090でおよそ6分かかります。
生成可能な曲の長さは最長で5分。Sunoが4分なのでそれ以上ということになります。
現時点ではCUDAが必須でGradioなどのGUIにはなっておらず、コマンドラインでの操作が必要ですが、Web UI対応も早晩対応しそう。
デモ曲を聞いたところ、SunoやUdioより大きく劣っているようではなく、一定の品質を保っているようです。
自分でインストールしてみて、その感想をレポートしたいと思います。
追記:なんとかインストールして、サンプルの歌詞と音楽タグ指定で生成できました。RTX 4090で。
インストールから推論までの詳細レポートを書きました。