無料で25人のAIシンガー使い放題なボーカロイド「VOCALOID β-STUDIO」はどこが画期的なのか、パラメータ1つで歌ってもらってわかったこと（CloseBox）

「VOCALOID β-STUDIO」の試用申し込み受け付けが開始されたという記事を書くとともに、実際に申し込みもしていました。リリース前の協力者による作例が少しずつ公開されてきた23日、初回受付分からの抽選が行われ、筆者は運良く当選しました。

著名ボカロPで外れた方もいらしたようなので、かなりの難関だった模様ですが、せっかく試す機会を得られたので、まずはインプレッションを書いてみようと思います。

Cubaseユーザー以外の使い勝手

VOCALOIDを開発するヤマハにとって、Cubaseを開発している独Steinbergは子会社。ヤマハのDAWにはCubase LEのライセンスが付属するなど、強い連携をしています。VOCALOIDと連動するVOCALOID Editor for Cubaseも早くから提供されていて、「VOCALOIDを使うならCubase」となるのは当然のことでしょう。それはVOCALOID β-STUDIOでも同様で、DAW内で歌詞付きノートを作成・修正できるのはCubaseだけ。VOCALOID β-STUDIOにはスタンドアロンのエディターがない分、よりその格差は大きく感じられます。

筆者もこのためにCubaseをメインマシンにインストールしてはみたものの、やはり慣れた環境でないと音楽制作はしにくく（操作を覚えられない）、とりあえずLogic Proで始めてみることにしました。

▲Cubaseにインストールはしてみた

そう。筆者のメインDAW（音楽制作ソフト）はAppleのLogic Proです。iPad版GarageBandで大体のトラックを作っておいて、プロジェクトをMacのLogic Proに読み込んでボーカルレコーディングと修正を行うというフローでいます。

以前と違い、最近の歌声合成ソフトはほとんどがMacに対応しているので、それぞれのスタンドアロンのエディターがあれば、それをLogic Proに読み込み、ピッチ調整機能であるFlexPitchで細かい修正を行うことで済んでしまいます。

Logic Pro（のMac版）は、このFlexPitchが内蔵されているという点が他のDAWに対して優位なポイントで、ピッチやタイミングが少々おかしくても、DAWの中で簡単に直せてしまうのです。Cubaseだと上位エディションのProやArtistはVariPhraseという同等の機能が使えますが、それ以外のDAWは、Melodyneなどのプラグインを別途購入して使う必要があります。

ボカロPには、VOCALOID Editor上で細かい調教はせずに、Melodyne（などのピッチ補正ツール）で全部やっちゃえばいいのよといった派閥もあります。

今回は使い慣れたボーカルエディターであるVOCALOID6 Editorを使って作ったボーカルデータ（.vpr）をまず用意しました。

▲VOCALOID6 Editor

次に、Logic Proに新しいソフトウェア音源トラックを作ります。音源にはVX-βプラグイン（AU）を選択。すると、VX-βのコントロール画面が表示されます。

▲VXβプラグインのコントロール画面

上部にさまざまなパラメータを操作できるノブやスライダーがあり、下部に、読み込んだ歌唱データがビジュアライズされて遷移していきます。Cubase版と違い、画面サイズを大きくできないのはバグでしょうか。

数字が1、2、3と打たれている部分があります。1が、AIシンガーの名前、2が、そのシンガーの歌い方、そして3は、歌唱シーケンスファイルをインポートするためのボタンです。ここにVOCALOID6 Editorで作成したボーカルデータを読み込みます。インポートする位置とかは調整できないみたいなので、Logic Proのマスタートラックと同じBPM、スタート位置で作っておく必要があります。

今回は、ユーミンの「いちご白書をもう一度」を使用。

実はVOCALOID6のレビューでの使い回しです。

4年ぶり更新のヤマハ「VOCALOID6」で歌って＆歌わせて考える、ヒューマンボイスとコンピュータ歌唱の境界（CloseBox） | テクノエッジ TechnoEdge

AIによる歌唱合成に踏み切ったヤマハの歌声合成技術「VOCALOID6」それをたっぷり試してみました。

https://www.techno-edge.net/article/2022/10/20/399.html続きを読む »

昨年10月20日のこの記事の時点で、VOCALOID6はAIボイチェンの機能を入れ込んでいて、その先見性は素晴らしいものがありました。その後、筆者はDiff-SVC、RVCといった生成AIの技術を用いて妻の歌声を再現する試みをするのですが、その先進例はすでにVOCALOIDがやっていたのでした。

好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか（CloseBox） | テクノエッジ TechnoEdge

無料で使えるAIボイチェン「Diff-SVC」を使って、妻の歌声を再現してみました。

https://www.techno-edge.net/article/2023/01/19/731.html続きを読む »

さて、当初、VOCALOID β-STUDIOには9人のAIシンガーがいると説明されていたのですが、開けてびっくり。その中の一人であるmultiβ-Nは、歌唱スタイルが17人分用意されていて、それを選ぶと全く違う歌手になります。つまり、実質的に合計25人分の歌手が選べるというわけです。おかげでこちらは記事タイトルを9人から25人に変更することになってしまいました。

▲歌唱スタイルのところに17人のシンガーが隠れていた

期間限定・無料で25人分のAIシンガーが使える試作品ボカロの受付開始。VOCALOID β-STUDIO、始まる（CloseBox） | テクノエッジ TechnoEdge

これまで作品を作ってきたボカロPは、ヤマハの新しいVOCALOID技術を無償で試すチャンス。「VOCALOID β-STUDIO」の参加受付が始まりました。

https://www.techno-edge.net/article/2023/08/22/1784.html続きを読む »

他の歌唱合成ソフトでも一部のシンガーを無料提供しているところはありますが、これは相当攻めに入ってきていると言わざるを得ません。

とりあえず、どれか一つに絞らないといけないので、曲に合わせてしっとりした歌い方ができそうなprtv_1を選びました。「ときに優しく、ときにキュートに心と体を包み込む魅惑の女性ストリートシンガーボイス」だそうです。名称未設定。Macの新規ファイル名みたいですが、素敵な声なので、いつか名前がつくといいですね。

▲prtv_1。名前も絵もまだない

このprtv_1の中から、さらに「soothing」という癒し系の歌唱スタイルを選んでみました。

▲歌唱スタイルを選べる

パラメータはこれまでのVOCALOIDとはだいぶ違います。吐息成分の強弱をつけるBREATHがなくて代わりにAir。Formant、Attach、Vibrato。この辺は名前で想像がつきます。

▲従来のVOCALOIDのパラメータとは大きく異なる

今回の作例では使いませんでしたが、Timingというパラメータが面白いです。FlexPitchではタイミングを調整するときにノートを左右に動かすのですが、Cubase以外ではノートを直接いじることはできません。ですが、Timingをオートメーションで上下させれば、その付近のタイミングを速めたり遅くしたりできるので、ボーカルエディターのタイミング調整の代替になります。

あと面白いのは、FuzzyとKero。これはそれぞれ、ピッチを不安定にする、極端に安定させる（ロボ声、ケロケロボイスにする）もので、Fuzzyパラメータを上げると、ピッチがランダムに不安定になって人間っぽくなります。大昔の家電が売りにしていた「ファジー」のイメージですね。

ですが、これらのどれも、Powerの前にはひれ伏するでしょう。VOCALOID β-STUDIO最大の発明と言っていいかもしれません。

これまで、静かなところ、盛り上がるところをVOCALOIDやその他の歌声合成でパラメータ調整するときにはいつも苦労していました。音量、トーン、吐息成分、ピッチのしゃくり、オーバーシュート、ビブラート。これらをうまい具合に組み合わせて自然な歌声にしようとしていましたが、なかなかうまくいきません。

こうした表現に関しては表現の上手い歌手には敵いません。いくつものパラメータを同時に調整すれば可能かもしれませんが、それには多大な労力とノウハウが必要。以前のバージョンではこうした表現技法を数多くのフレーズ集やマクロで実現しようとしていましたが、使いどころが非常に難しかった記憶があります。だからこそ、VOCALOID6のAIボイチェン機能が有効だったのです。

それを、一つのパラメータで表現可能にしたのがPowerです。落ち着いてしっとりさせたいところ、激しく盛り上がるところ、ふっと力を抜くところ、これらを一個のノブ、オートメーションで調整できるのです。

次の作例ではPowerパラメータの変化だけを使っています。

Logic Proのトラックに一つのオートメーションを描いただけ（上部の折れ線がそう）。これで音量も、歌い方も大きく変化します。かなり自然な盛り上がり方ができるようになりました。

ボーカリストに、「Aメロは抑えめで、Bメロは少しだけ強め。サビでは8割くらいのパワーで。最後は力抜く感じで」みたいなディレクションを、数値でできるというわけです。

ここはピッチカーブをいじりたい、しゃくらせたい、オーバーシュートを弱めに、というのが出てきたら、オーディオにバウンスしてFlexPitchの補正機能で変更すればいいのです。

VOCALOID β-STUDIOはVOCALOID:AIの進化系？

2020年暮れに「AI美空ひばり」で話題を呼んだ、美空ひばりの歌声をディープラーニングで再現するVOCALOID:AIでは、彼女の歌唱手法をどのように再現していくかが課題でした。声質だけならなんとかなりますが、問題は歌い方です。どの部分でどのように歌うかというのは歌手のそのときの気分次第で、必ずしも統計的に解が得られるというものではありません。しかも美空ひばりは不世出の天才歌手です。

であればそこにはディレクションが必要で、それをわかりやすく織り込んでいくにはどうしたらいいか、考え抜いたことでしょう。このPowerは、そうした試行錯誤を経た上での一つの解決策なのではないかと考えています。VOCALOID β-STUDIOプロジェクトのキャプテンが、この開発に携わった才野慶二郎さんなのは、そういう流れがあったのではないかと想像しています。

VOCALOID β-STUDIO、まだまだ試すことはたくさんあります。歌唱方法もAIシンガーによってだいぶ違うのがわかってきました。スタジオシンガーの場合には歌い方、ピッチが安定しているのに対し、ストリート系、ロック系はすぐにオーバーシュートしてしまうとか、クセ強めであるといったことも。

Synthesizer V、CeVIOといったAI歌声合成の新潮流に対抗するだけでなく、そのファイルを読み込めるようにするとか、異様なまでのフットワークの軽さ。Stable Diffusionが公開されてちょうど1年のこのタイミングで登場したこのプロジェクト、まだいろいろ仕掛けてきそうで、わくわくしています。

追記（8月25日20時）

という投稿がXにありました。これの意味するところは、VOCALOID β-STUDIOには追加ボイスバンクの登録が可能であり、そのボイス制作には、従来のVOCALOIDのように特殊な呪文（スクリプト）を読み上げることが不要で、一定分量のボーカルデータ（この場合はアルバム1枚分）で本人そっくりのAIシンガーを作り出せるということを意味します。

ゲキヤクβ、カゼヒキβといったUTAU由来の音源も、そこからどのようにコンバートしたのかが気になるところ。Diff-SVCやRVCと同様の学習量でということならば、数十分の歌唱データがあれば十分ということになるので、それも理解できます。

収録・制作コストがかかりすぎるというところがVOCALOIDの弱点でもあったので、この新しいスキームでどのように変わっていくのか、楽しみです。

無料で25人のAIシンガー使い放題なボーカロイド「VOCALOID β-STUDIO」はどこが画期的なのか、パラメータ1つで歌ってもらってわかったこと（CloseBox）

松尾公也

特集

Cubaseユーザー以外の使い勝手

VOCALOID β-STUDIOはVOCALOID:AIの進化系？

松尾公也

特集

『テクノエッジアルファ』会員募集中

テクノエッジショート動画

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

【生成AI・スマホ・自作PCほか】配信・イベントスケジュール：ライブ配信とリアルに会場へ集う2種類のイベント

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

賞金総額140万円！ゲーム開発コンテスト『Tokyo Game Jam』参加者募集。ハッカソンの参加のコツとは？

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

Cubaseユーザー以外の使い勝手

VOCALOID β-STUDIOはVOCALOID:AIの進化系？

SHARE THE STORY この記事をみんなにシェア

松尾公也

特集

『テクノエッジ アルファ』会員募集中

テクノエッジショート動画

『テクノエッジアルファ』会員募集中