ヤマハの歌声合成ソフトVOCALOIDがメジャーアップデートを果たし、「VOCALOID6」となりました。発表日にアップデート版を購入したので、しばらく使ってみました。
VOCALOID2時代の初音ミクで一躍メジャーになり、その後のボカロブームを作り出したVOCALOIDも2018年のVOCALOID5発表から4年。2019年末には機械学習をVOCALOIDとしては初めて使った「AI美空ひばり」を1曲だけ出したり、誰でもELT持田香織の声で歌える「なりきりボイス」をカラオケで使えるようにしたり、初音ミクなどVOCALOID音声をリアルタイム演奏できる「VOCALOID Keyboard」(2018年)を発売するといったスポット的な話題はあったものの、VOCALOID本体には動きがみられませんでした。
先日、松任谷由実が荒井由実の歌声とデュエットする新曲がリリースされ、そのリアルさに驚きの声が挙がっていましたが、これもVOCALOIDとは異なるAIベースの技術です。
AI荒井由実と松任谷由実が50年の時を越えデュエット&対談。東大研究者が開発した技術の向かう先
その間に歌声合成業界は大きく動いており、Synthesizer V、CeVIO AIといった、機械学習ベースの歌声合成が、その人間らしい歌唱力と音質で認知され、「もうボカロじゃなくてもいいかな」という雰囲気になっていたところ、本家の登場というわけです。
では、今回のバージョンアップでどこが変わったか、大きなポイントは4つあります。まず、音源がこれまでの音声波形接続合成から機械学習ベースの「VOCALOID:AI」に変わったこと。それでもVOCALOID 5との互換性はあって、旧バージョンのボイスライブラリが使えます。というかダブルエンジン搭載ということのようです。
バージョン5までのVOCALOIDは、コンピュータで合成した歌声を自然なものにするいわゆる「調教」に独特のノウハウが必要でした。それというのも、VOCALOIDのパラメータは人間の歌声のオーディオデータと大きく違っているからです。さまざまなパラメータを、音と音の接続に合わせて変えていかないと人間っぽくなりません。
AIベースの歌声合成はこうした調教を不要にするというのを打ち出してきましたが、実際には機械学習ではなく隠れマルコフモデルによる統計的手法で人間らしい歌声を実現していたSinsyやCeVIOが初音ミク登場の数年後には発表されています。Sinsyが2009年、CeVIOが2013年の登場ですから、今回のVOCALOID:AIはほぼ10年以上遅れでようやく「調教不要」となったと言えるでしょう。
▲Sinsyには筆者の歌声を調教不要で真似できる音源も無料で使える(英語のみ)
もはや調教不要?
AI歌唱とはいっても、実際に試してみないと実力はわかりません。歌詞の一音一音を譜面通りに素直に並べていく、いわゆる「ベタ打ち」でどのくらいの歌唱力を持っているのか、手持ちのオケで試してみました。ただ、ロングトーンでのビブラートだけは好みの問題で設定しています。
伸びやかな歌声に人間らしい表現力が加わったVOCALOID:AIの歌は、生っぽいというよりは従来のVOCALOIDの延長線上にあるように思えます。特に、新ボイスのAKITOは、VOCALOIDバージョン1からある古参組ボイスのKAITOっぽさも感じます。KAITOのアナグラムでもありますし。あとは、女性日本語ボイスのHARUKA、女性英語ボイスのSARAH、男性英語ボイスのALLENが標準で用意されています。
VOCALOID:AIの音の自然さは、同じフレーズをベタ打ちでVOCALOID5と比べてみると歴然です。昔はこれでいいと思っていたんだ、と驚くでしょう。
もうこれでほとんど調教不要と思えますが、従来のVOCALOID調教に慣れた人向けに、従来と同様の「線を描く」タイプのエディットも用意されています。パラメータの数は3つですが、そのうちの2つはPitch Bend(PIT)とPitch Bend Sensitivity(PBS)なのでこれは音の高さをいじるということで1つにまとめていいでしょう(PBSはピッチベンドの感度なのでほとんど触らない)、もう一つはDynamics(DYN)、すなわち細かい音量調整です。
VOCALOID6のエディット機能は、ベタ打ちをするだけならすごくシンプルで、従来との違いがあまり見えてきません。ですが、右クリックで表示されるポップアップメニューに4つの新しいエディットがあります。実は今回のバージョンアップで一番評価したいところはここです。
今、プロであれアマチュアであれ、DAW(音楽制作ソフト)でボーカルを編集している人は、かなりの比率でピッチ補正を使っているはずです。録音したボーカルデータの高さや長さをビジュアル操作で加工し、ちゃんとした歌に聞こえるようにすること。それを自動でやってしまうAuto-Tuneというのが有名ですが、より細やかに編集する単体アプリ&プラグインのMelodyneがありますし、DAWのCubaseにはVariAudioが(Proエディションのみ)、Logic ProはFlex Pitchがほぼ同じ機能を持つボーカルエディタです。
Auto-Tuneは誰でもケロケロボイスにしてしまいますが、Melodyneはミスったところだけ直せるので、リテイクを最小限に抑えられて、コスト効果も高いのです。
こうしたボーカルエディタのユーザーインタフェースはとても使いやすく、ピッチの揺れを抑えたり、ミストーンを修正したりはお手のもの。それに対して、同じような結果を出すのにVOCALOIDはいくつものパラメータを線で描いて処理しなければなりませんでした。このため、一部のボカロPには、いったんオーディオデータに書き出して、Melodyne側で作業するといった人も一定数いたようです。
VOCALOID:AIの編集では、このボーカルエディタっぽい操作が可能になったのです。
これまで正直とても使いづらかったVOCALOIDのビブラートエディタはノートに表示されているビブラートスピード、深さをマウスで上下させるだけでよくなりましたし、前の音から次の音へのピッチの変化具合も同様に操作可能です。これが旧版のVOCALOIDでは非常に面倒でした。
さらに、音素の遷移のタイミングを前後に変化させるのも直感的に操作できて、表現力が格段に上がります。
たとえばカレン・カーペンターの上手さの要因の一つとして、ゆっくり歌うときの音素の遷移がとても滑らかで美しいことが挙げられますが、バラード系楽曲では、こうした音素のタイミング調整はとても重要になります。また、ノートの前中後でトーンの表情を変えられるエクスプレッションという新たなパラメータも用意されています。これもまた操作しやすくて効果的。
PITとDYNも同様にノート上の操作でできるとさらに便利なのですが……。
ポイントはこの操作が使えるのはVOCALOID:AIのみだという点。これは嫌でも移行が進みそうですね。
自分で歌ってボイスチャンジャーするVOCALO CHANGER
次の目玉機能は「VOCALO CHANGER」。自分で歌った(別の人でもいいのですが)ボーカルトラックを、歌い方そのままでVOCALOID:AIに置き換えるという機能です。いわゆるボイスチェンジャーのようですが、VOCALOID:AIで用意された4つの歌声に変えられます。例えば微妙なニュアンスのところは自分で歌ったものを手本にして、声質はボカロに、ということが可能です。
編集はVOCALOID6 EDITORにボーカルトラックをドラッグ&ドロップし、ターゲットとなる歌声を選んで変換。すると数秒で元データの入ったトラックがVOCALOID:AIの声に置き換わります。これも試してみました。自分で歌った同じ「いちご白書をもう一度」を、自分、AKITO、自分、HARUKAと切り替えながら再生。
自分の歌唱をボカロに転写する技術としては、産総研の「ぼかりす」(VocaListener)がありました。ヤマハがこれをVOCALOIDに取り込み製品化したこともありましたが、それとは全く違う性質のものです。ぼかりすは人間の元歌唱のピッチやダイナミクスをVOCALOIDに持っていけるようにVSQというVOCALOIDのパラメータを生成する技術。一方、VOCALO CHANGERはVOCALOIDデータではなく、直接オーディオデータを書き出します。生成後はVOCALOID6 EDITORで編集できません。それはDAWのボーカルエディタでやってください、という割り切りです。
つまり、元データをちゃんと歌えるか、ちゃんとした歌に編集できるDAWかプラグインを持っている必要があるということです。自分の歌がちゃんとしていないということを自覚できるのは、ぼかりすもVOCALO CHANGERも同じでした。
VOCALO CHANGERをかけたVOCALOID:AI歌唱とベタ打ちしたVOCALOID:AI歌唱を比較すると、2つ並べて同じ歌手だと主張するのには、自分の元歌では違和感が。事前にボーカルにピッチ補正をかけておくなりする必要はありそうです。
ヤマハの作例くらいスムーズに歌えていれば問題なんでしょうけど。
もう一つ、VOCALOID6の素晴らしいポイントがあります。それはマルチリンガル対応。日本語と英語の歌詞を、1つのボイスバンクで自由に行き来できるのです。
日本の歌には、基本的には日本語だけど、ところどころ英語歌詞が混じるものが多くあります。これまでのVOCALOIDでは、たとえば初音ミクの日本語版と初音ミクの英語版をボイスバンクを切り替えながら使うといったことをしていました。そのためにはもちろん、VOCALOIDシンガーが両方の言語エディションを用意していなければなりません。
VOCALOID:AIで用意されている4つのバーチャルシンガーは、日本語の男女、英語の男女と、それだけ見たら、日本語で歌えるのは2人で、英語も2人なのね、と思うのですが、実はこの4人、どっちもいけちゃうバイリンガル(中国語にも対応予定)。しかも、英語のノートと日本のノートを同じリージョンで隣り合わせにもできる。[Ah][あー][Ah]といった微妙な表現まで可能なのです。
▲英語歌詞と日本語歌詞の混在が1つのリージョン内で可能
今回のバージョンアップはまさにボカロPの現場で求められていたことだと思います。それこそ10年以上前から。また、WindowsだけでなくMacも完全に同等な扱いになりました。DAWのプラグインがVSTiだけでなくMacのAudioUnitsにもフル対応し、Logic ProやGarageBandまで使えるようになっています。初音ミクを擁するクリプトン・フューチャー・メディアはVOCALOIDから離れ、独自の歌声合成エンジン(産総研が開発協力)に移行していますが、ボカロ新時代はここから再スタートを切れるのではと期待が持てる仕上がりです。
もう一度、VOCALO CHANGERを試してみました。
この曲「Mercedes Benz」(ベンツがほしい)は、ジャニス・ジョップリンの遺作となった「Pearl」に収められていたボーカルのみの曲です(足踏み付き)。ここでは自分が歌ったものを元データに、VOCALOID:AIのSARAHに歌ってもらいました。これは比較的破綻なくできたのではないかと思います。
では、同じようなことを、自分の歌唱オーディオではなく、ジャニス本人の歌でやったらどうでしょうか? 足踏みが入っているので誤動作が起きるかと思ったのですが、そこはそのままに、声色だけがSARAHをはじめとするVOCALOID:AIのものになります。しかし、この節回しはジャニスそのもので、彼女の歌を知っている人が聴いたら、声がちょっと変だけど録音のせいかね、と思うくらいでしょう。
分離されたボーカルトラックがあれば、こういうことは実際可能ですし、今はボーカルを抽出する実用的なソフトも出ています。元音源そのままではなく、ボーカルエディタで切り貼りしていけば、元歌手がトレースできなくなる可能性も十分にあります。たとえば、筆者の歌唱したものとジャニスの歌唱をマージして、それをVOCALO CHANGERで同じ歌声に変換したら、など。普通にVOCALOIDをエディットしたものと、部分的に元ボーカルからCHANGEしたものを混ぜていけば、とか……。ひょっとしたらそうした試みの中からサンプリングのように新しい音楽手法が生まれていくのかもしれません。
こんな感じで、自分の歌声と新しいエディット方法を駆使しながら、4年ぶりのボカロを楽しみたいという気持ちでいっぱいです。
VOCALOID6(VOCALOID6 for Windows / macOS)は27,500円。CubaseAIが付属します。31日間使える試用版もあります。サードパーティのボイスバンクとしては、インターネットの「メグッポイド」がVOCALOID:AIに対応した「AI Megpoid」として別売されています。メグッポイドは歌手・声優の中島愛さんの歌声をVOCALOID化したもの。ランカ=リー「星間飛行」を歌わせたいという欲求に抗うのは難しいものがあります。