Synthesizer Vのメーカーが作った、10秒の音声ファイルがあればリアルタイム歌声変換できるAI技術「Vocoflex」はRVCを超える？（CloseBox）

「年末のライブなんですが、今回、とりちゃんにコーラスをやってもらいたいと思っていて、リアルタイムで歌うことってできないですか？」

かつて妻が所属していて、今は自分が妻のパートであったキーボードを演奏している学生時代から続くバンドのリーダーからそんなメールが届いたのは2週間ほど前のこと。

2013年に他界した妻の歌声を元にしたバーチャルシンガー「妻音源とりちゃん」は、2013年9月の追悼コンサート以来、コロナ禍の時期以外はほぼ毎年、妻の歌声でライブに参加していたのですが、今回はリアルタイムで、という新たな課題が加わりました。

AIでリアルな発声ができるようになったとはいえ、バンドの演奏に合成音声をシンクロさせるのは至難の業。最新版の妻音源とりちゃん[AI]ではRVCという、低レイテンシーでのボイスチェンジャー機能が可能な技術を使っているとはいえ、ライブ演奏で実用に足るレベルかというと不安が残ります。安全策を考えると、サンプラーにいくつかのフレーズを割り当てておいてポン出しするということになるのですが……。

どのサンプラーにしようかと思案していたところ、歌声合成ソフトのSynthesizer Vや音声合成ソフトのVOICEPEAKを開発しているDreamtonicsから「Vocoflex」という新製品のニュースが飛び込んできました。

何か発表があると予告はされていたので、AIベースの何かだろうなと期待はしていたのですが、簡単にいうと、10秒間歌ったデータがあれば、その声を学習して、リアルタイムで音声変換できるようになる、というものです。

似たような技術はいくつかあります。例えば、マイクロソフトが発表したVALL-E X。OpenAIが発表したVoice Engineも短時間で学習した音声を再現できる、同種の技術です。それなりのサンプルの長さ（20分から1時間分）と学習時間（数十分から数時間）とGPU資源がかかるとはいえ、リアルタイムボイチェンという意味では筆者が常用しているRVCにも近いです。RVC以外のAI音声モデルを使えるVC Clientというボイスチェンジャーもまた同様のことができます。

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

「使い方を誤ればティープフェイクの音声版にもなり得る」とまでマイクロソフトが危険視していた技術が別の開発者によってオープンソース公開されました。

https://www.techno-edge.net/article/2023/08/28/1812.html続きを読む »

Vocoflexは、4つあるモードのうち一番リアルタイムに近いもので45msecくらい。ゆっくり目の曲であったり、リードボーカルでなくてコーラスであればおそらくなんとかなるレベルの応答性の良さです。

筆者が使っているRVCでもおそらく近いことはできるでしょうが、レイテンシはおそらく数倍は大きいようです。やったとしても、歌声としては厳しい。一方、Vocoflexは歌声に最適化しているということで、リアルタイムでの使用においては優位であることが期待できます。リアルタイムでの変換を聞いてみましたが、破綻は感じられませんでした。

さらに、声質や、その変化の具合を調整できるようなので、学習した声のモデルをさらにオリジナルに近づけることも（遠ざけることも）可能です。

これはライブで妻の歌声でコーラスするのに最適じゃないですか。

ベータ版テストが開始されているので、申し込んでみました。二次審査まであって、そこで通れば使えるようになるようです。

年末のライブに間に合うように、使えるようになるといいなあ。

複数の人だったり、ぜんぜん違う楽器音とモーフィングさせることもできるようで、音声楽器としての可能性も大。Synthesizer V Studioとの連動もOK。なお、また、透かし技術が使われているので悪用はできないようになっているそうです。

Synthesizer Vのメーカーが作った、10秒の音声ファイルがあればリアルタイム歌声変換できるAI技術「Vocoflex」はRVCを超える？（CloseBox）

松尾公也

特集

松尾公也

特集

『テクノエッジアルファ』会員募集中

テクノエッジショート動画

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

【生成AI・スマホ・自作PCほか】配信・イベントスケジュール：ライブ配信とリアルに会場へ集う2種類のイベント

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

賞金総額140万円！ゲーム開発コンテスト『Tokyo Game Jam』参加者募集。ハッカソンの参加のコツとは？

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

SHARE THE STORY この記事をみんなにシェア

松尾公也

特集

『テクノエッジ アルファ』会員募集中

テクノエッジショート動画

『テクノエッジアルファ』会員募集中