OpenAIのAI音声技術「Voice Engine」、アバターサービスのHeyGenが採用

テクノロジー AI

2024 Apr 1 23:25

松尾公也

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

OpenAIのAI音声技術「Voice Engine」、アバターサービスのHeyGenが採用

OpenAIは3月29日、15秒ほどの短い音声を元に、本人そっくりで、感情を込めたリアルな音声を生成できるAIモデル「Voice Engine」を発表しました。元音声と生成音声のサンプルがいくつか公開されています。

同種の技術であるマイクロソフトのVALL-E Xは、わずか3秒の音声データを元に、その人らしさを保った発声を可能とするAIモデルで、発表済み。

マイクロソフトはディープフェイクを恐れてコードを非公開のままですが、この技術をオープンソース実装したソフトウェアは2023年の8月に公開されています。

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

「使い方を誤ればティープフェイクの音声版にもなり得る」とまでマイクロソフトが危険視していた技術が別の開発者によってオープンソース公開されました。

https://www.techno-edge.net/article/2023/08/28/1812.html続きを読む »

VALL-E Xはテキストからの推論に時間がかかるため、昨年に検証した時点では実用的レベルではありませんでしたが、Voice EngineはGPT-4のテキストレスポンスをリアルタイムで音声にできるとしており、推論スピードの点では問題なさそうです。

Voice Engineはごく限定的なユーザーにのみ提供されていますが、その一つが、AIアバターサービスのHeyGen。同社のサービスは実用的レベルのリップシンク技術が知られていますが、もう一つの柱は、企業向けのカスタマイズアバターサービスです。ChatGPTと連動してカスタマイズされた音声で応答するサービスも提供していますが、その音声技術の出所についてはこれまで言及していませんでした。

それが、今回のOpenAIの発表により、HeyGenのカスタマイズ可能な音声技術はOpenAIのVoice Engineであることが判明したというわけです。

Voice Engineの採用例としては、HeyGenの他に、リアルタイム翻訳機能や自分の声を失う可能性のある患者用のTTSといった用途を挙げています。

ただし、現時点では一般公開の予定はありません。金融機関でのID詐称などの悪用を防ぎ、個人の音声AIを防御するといった手段を確立する必要があると、その理由について説明しています。

しかし、VALLE-Xのオープンソース実装やSoraに対するOpen-Sora同様、短時間の音声から高品質でリアルタイムに近い応答性と本人性を持ったAI音声モデルが登場するのは、時間の問題でしょう。

生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説（生成AIウィークリー） 6枚目の写真・画像 | テクノエッジ TechnoEdge

生成AIに関する重要論文5本を解説する連載。今週は、生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など。生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説（生成AIウィークリー） 6枚目の写真・画像

https://www.techno-edge.net/article/img/2024/04/01/3086/15131.html続きを読む »

《松尾公也》

松尾公也

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。