Google Reseachが、入力されたテキストに応じて音楽を生成するツール「MusicLM」を発表しました。
MusicLMは、28万時間におよぶ音楽のデータセットを用いて学習したAIを使用し、Google Researchが言うところの「非常に複雑」なテキスト記述、たとえば「ディストーションの効いたギターリフのバッキングに乗る心地よいバイオリンの旋律」といったテキストから、忠実性の高い音楽を作り出せると説明されます。
実際のところは、提示されている出力例を聴いても全体的に音楽としてきちんと編曲されたものができあがるわけではないようです。またその音質は「24kHzの音楽」と説明されているものの、生成された音楽のサンプルを聴く限りは、音質的にはAMラジオ程度でしかありません。
なお、MusicLMに食わせるテキストは詳しく書いてもひと言だけでも生成できます。たとえば、サンプルとして紹介されている「アーケードゲームのメインサウンドトラック。ハイペースなアップビートで、キャッチーなエレキギターのリフが特徴。繰り返しの多い音楽で覚えやすいが、シンバルのクラッシュやドラムロールなど、意外性のある音も入る」という、複雑な説明文から生成された音楽サンプルは、そのまんま80年代後半~90年代前半のアーケードゲームにあった、やたらテンポの速いチップチューンっぽいそこそこ納得の音楽でした。
一方で「グレゴリオ聖歌を歌う聖歌隊と、リズミカルなビートを刻むドラムマシンの音が聞こえる。弦楽器のゆったりとした重厚なサウンドが、未来的な電子音楽の高速で複雑なサウンドの背景となり、心を落ち着かせてくれる」という出力例は、グレゴリオ聖歌隊がどこにいるのか判別できず、普通の電子音楽に聞こえました。
とはいえ、音楽を生成するためのテキスト記述のしかたは多種多様で、たとえば音楽の雰囲気を指示するテキストを、時間を指定していくつか繋げることで、ひとつながりの楽曲にするストーリーモードや、あらかじめ用意したメロディを与えて、そのテキストで示したリクエストとメロディを組み合わせた音楽を生成することも可能です。
さらに、与えるテキストは必ずしも音楽的な要素を含む必要はなく「トレーニングのモチベーションアップのための音楽」のような、用途を示すだけでも音楽の生成は可能。他にも絵画にBGMを付けたり、演奏者のスキルレベルを変えたり、世代間の違いを演出したりといったことができます。
ただ、確かにMusicLMはそこそこの音楽を出力できるときもあるものの、やはりまだ完璧と言えるものではありません。たとえばヴォーカルを含めた音楽を出力ことはできても、その歌詞はそれらしく聞こえるだけの、まったく無意味な音声であり、ある意味(日本人の)小さな子どもが雰囲気で英語の歌を歌っているような、ちんぷんかんぷんな言語で歌唱しています。また、音楽的にも起承転結をきちんと構成しているわけではないため、全体に単調なものばかりな印象です。
また、学習した楽曲の著作権に関する問題も残っています。先日、CNETが世間に知らせることなくAIを使って記事を生成したことが発覚し、しかもその記事の半数以上に修正すべき誤りが含まれていたことが報道されていました。しかも、CNETのAI記事には学習に使用したとみられる他のメディアの記事からそのまま複製したフレーズなどが含まれ、盗用の問題もあることが指摘されていました。
MusicLMも、出力した楽曲の約1%に学習データとして使用した著作権ある素材の断片をそのまま組み込んでしまう傾向が含まれると、Google Researchは自己申告しています。そのような問題があることから、Google ReseachはMusicLMのデモ環境を一般に公開することは控えているとのことです。
なお、音楽ファンなら「ディストーションの効いたギターリフのバッキングに乗る心地よいバイオリンの旋律」と言われればすぐに米国のプログレバンドKansasあたりを思い浮かべる人もいることでしょう。「どれどれ、出力例にその辺の著作権的な断片が含まれているかな?」と、MusicLMが吐き出したサンプルを聴いてみようと思ったものの、Googleはその出力例をウェブサイトに公開していませんでした。