オープンソースのAI声質変換(ボイスチェンジャー)ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。
VITSという声質変換技術をベースにしたRVC(Retrieval-based Voice Changer)に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。
RVCは現在出回っているAIベースのボイスチェンジャーの中では性能と処理速度、学習の手軽さのバランスが最も良いものと言っていいでしょう。しかもオープンソース。このソフトはもともと中国製で、ユーザーインタフェースが全て中国語(簡体字)であるため、中国語話者以外は読み解きにくいのが唯一の弱点でしたが、それが解消されたことになります。
▲起動時のターミナル表示で、日本語表示が適用されていることがわかる
日本語化されたRVC WebUIは「モデル推論」「伴奏とボーカルの分離」「トレーニング」「ckptファイルの処理」という4つのタブに分かれており、主な設定項目は日本語化されています。ただ、一部の説明文は中国語のままなので注意が必要です。
筆者はこれまで、学習を行う「トレーニング」と声質変換を行う「モデル推論」の2つだけを使っていましたが、日本語化されたことで、他の2つも使えそうです。
このうち、「伴奏とボーカルの分離」は、UVR5(Ultimate Vocal Remover v5)というボーカル分離技術を使ったものです。UVR5は、単独のソフトウェアとして公開されており、Windows、Mac、Linuxそれぞれのバイナリもあるため、RVC WebUIを使うメリットは薄いので、便利なおまけ機能として考えたほうがいいでしょう。
単独版UVR5には、複数の音声分離モデルを同時に使い、いいとこどりをすることで良質な音声を抽出するEnsembleという機能が便利すぎるので、抽出が上手くいかなかったときにはこちらを使うといいでしょう。筆者はこの機能を使い、1982年のカセットテープに収められたバンド演奏での妻の歌声を抽出することができました。
この方法の詳細は、だだっこぱんださんのブログを参照してください。
「ckptファイルの処理」は、作成した複数のモデルを「フュージョン」(ドラゴンボール的な意味で)させる機能です。これによって、実在の話者の声質とは異なる新たな声を作り出すことが可能です。
▲作成したAIモデルのマージが可能
ボイチェンをリアルタイム処理するためのアプリ「VC Client」も進化しています。SOLAという、音質を向上させる技術が最新版では実装されています。
▲最下部にあるSOLAをenableにすると高音質化される
VC ClientはNVIDIA製GPUを備えたWindows PCだけでなく、Apple Silicon搭載Macでも十分な品質のリアルタイムボイチェンを可能にしてくれるありがたいソフト。画面の右上のコーヒーカップアイコンをクリックすると、作者のwokさんへのドネーションもできます。筆者も感謝の気持ちを込めて、コーヒー5杯分を送らせていただきました。