3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox）

わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。

以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応（CloseBox） | テクノエッジ TechnoEdge

友人の声をAIボイチェンで真似て、本人と話してみました。本人もショックを受けていたようです。

https://www.techno-edge.net/article/2023/04/12/1146.html続きを読む »

これはごく短いオーディオデータしか残っていない人の声（故人や声を失ってしまった人）を再現する場合には大きな福音ですが、その一方でディープフェイクボイスとして詐欺に使われたりと、大変な脅威と見る人も多いでしょう。それは、この技術を開発したマイクロソフトの行動が示しています。

マイクロソフトが、たった3秒間のサンプル音声から誰かの声をシミュレートし、テキストを読み上げさせられる独自の音声AI「VALL-E」を発表したのが今年の1月。

マイクロソフト、3秒のサンプルから誰の声でも再現できるAI「VALL-E」サンプル公開 | テクノエッジ TechnoEdge

マイクロソフトが、たった3秒間のサンプル音声から誰かの声をシミュレートし、テキストを読み上げさせられる音声AI「VALL-E」を公開しました。

https://www.techno-edge.net/article/2023/01/11/703.html続きを読む »

マイクロソフトはこの技術が社会的に害をもたらす可能性を認識しているとして、そのコードを公開することは差し控えていました。

「使い方を誤ればティープフェイクの音声版にもなり得る」とまで危険視していたこの技術をさらに改良した「VALL-E X」をマイクロソフトがリリースしたのが3月。

今回取り上げる「VALL-E X」は、シンガポール在住の研究者であるPlachtaaさんがこの論文をもとにオープンソース実装したものです。マイクロソフト自身が公開したわけではないので注意が必要です。詳しくはこちらの記事をどうぞ。
VALL-E X の OSS実装を試す

OSS版VALL-E XのGitHubページ

マイクロソフト版になかった日本語もサポート

マイクロソフト版とこのオープンソースソフトウェア（OSS）版の、われわれにとって重要な違いは、日本語をサポートしている点。マイクロソフト版は英語と中国語のみでしたが、OSS版VALL-E Xでは言語として日英中、さらにそれぞれの言語に対して別の言語のアクセントをつけることも可能となっています。つまり、学習元の音声データが中国語、英語、日本語のいずれであっても、それぞれのネイティブ発音だけでなく、英語訛りの日本語、中国語訛りの英語、といった表現が可能になります。

▲OSS版VALL-E XのWeb UI初期画面

ボイスクローンは非常に高速

このOSS版VALL-E Xは、NVIDIA GPU搭載のWindowsマシンにインストールするための方法が公開されており、容易に組み込むことができます。Webブラウザでわかりやすく操作できるWeb UIも最初から実装されているので、学習も推論も簡単に使えます。Hugging FaceとGoogle Colabを使い、オンラインで試すこともできます（Hugging Faceへのリンク）。

今回は、Core i7-13700（13世代）とGeForce RTX 4090のガレリアPCで試してみました。

筆者はこれまで多様な音声合成ソフトを試してきましたが、音源作成がこれほど簡単だったものはありませんでした。なにせ、必要な音声の長さはわずか3秒。それをアップロードして名前をつけ、スクリプト（読み方）を記述して変換すれば、ほぼ一瞬で音源が出来上がります。

▲自分の声を録音した3.4秒のWAVファイルを学習させたが一瞬で完了

▲左下のkoya.npzというファイルが、学習データ（Prompt）。これをアップロードすることで、その声でのTTSが使えるようになる

解説動画を作ってみたので、どういうものかはチェックしてみてください。

TTS変換速度は改善の余地あり

欠点もあります。学習が一瞬で完了するのに対し、TTSの処理速度が非常に遅いのです。数秒分のテキストから音声生成するのにかかる時間は数十秒。これではリアルタイムでタイピングして音声を生成するといった用途には向きません。このアンバランスさは今後のバージョンアップで改善されると思いますが、現時点ではこの非実用性がかろうじてフェイクボイスの壁となってくれているのかもしれません。しかしそれもごく短期間でしょう。

パンドラの匣、完全に開いてしまった感ありますね。

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox）

松尾公也

特集

マイクロソフト版になかった日本語もサポート

ボイスクローンは非常に高速

TTS変換速度は改善の余地あり

松尾公也

特集

『テクノエッジアルファ』会員募集中

テクノエッジショート動画

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

【生成AI・スマホ・自作PCほか】配信・イベントスケジュール：ライブ配信とリアルに会場へ集う2種類のイベント

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

賞金総額140万円！ゲーム開発コンテスト『Tokyo Game Jam』参加者募集。ハッカソンの参加のコツとは？

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

マイクロソフト版になかった日本語もサポート

ボイスクローンは非常に高速

TTS変換速度は改善の余地あり

SHARE THE STORY この記事をみんなにシェア

松尾公也

特集

『テクノエッジ アルファ』会員募集中

テクノエッジショート動画

『テクノエッジアルファ』会員募集中