1月23日、音声AI技術を開発するスタートアップElevenLabsが、1分以上のサンプル音声があれば、そのサンプルの人物の声で自由に喋らせられるAI音声生成プラットフォームをベータ版として無料公開しました。
ところが、簡単に誰かの声を使って何かを喋らせられるとなれば、著名人の声を自由自在に操り、本来なら聴くことができないような発言をさせてみたいと誰もが思うことでしょう。インターネット掲示板サイト4chanには、このツールを使って続々と有名人がヘイトスピーチや、絶対に話さないような内容の話をする音声クリップが投稿されはじめました。
最初に人々の目をひいたのは、ヒトラーの著書「わが闘争」を英国の女優エマ・ワトソンが読み上げるクリップが投稿されたことでした。つづいて、別の4chanユーザーが、陰謀論や誤情報を拡散するポッドキャストで知られるジョー・ローガンや、2014年に亡くなった俳優ロビン・ウィリアムズなどのディープフェイクボイスを公開しはじめました(現在はこのページはアーカイブ済み)。
ElevenLabsは、映画やテレビ、YouTubeなどのメディアが、音声吹き替えを素早く簡単に生成するソフトウェアを販売しています。生成される声は音質が良く、編集する手間が大きく省けるほか、外国語へのリアルタイム変換や、オーディオブックのインスタント生成といった用途に役立つといった点が謳い文句です。
ElevenLabsのAI音声合成プラットフォームでは、1分以上のターゲットとする人物の声があれば、その音声クローンを作ることができ、何でも喋らせることができると説明されています。
しかし、誰でもウェブサイトから音声クローンを作れるようにしていたことで、あっという間にいたずら的な感覚で著名人の声がクローン化されているようです。この問題を伝えるThe Vergeは、ジョー・バイデン大統領の声のクローンを作り、あたかもAIが作り出した大統領の声で、ロシアへの侵略を宣言する音声を生成できたと報告、この技術が誤った情報の拡散に悪用される可能性を警告しています。
AIで生成されたバイデン大統領の声を聴いてみれば、多くの人が著名人についついあり得ないようなことを喋らせてみたくなるのもわかります。4Chanでも上に挙げた事例のほか、ネットミームやコピペを喋らせるだけならまだしも、悪質なヘイトスピーチや、いかがわしい内容の言葉を著名人に話させた音声が投稿されています。傾向としては、音声の入手が簡単なアニメやゲームの声優の声、YouTuberやVtuberの声がよくクローン化されているようです。
Eleven Labsは、こうしたAI生成音声の悪用が横行していることをTwitterへの投稿で認め、問題を解決するための方策を探るとしています。また「生成したAI音声は、それを作ったユーザーを追跡できる」とも主張しました。さらにユーザーからも悪用対策のアイデアを募り、支払いの詳細やIDを要求する、追加のアカウントチェックを要求するといった対策を検討するとしています。
ElevenLabsは元Googleの機械学習エンジニアPiotr Dabkowski氏らによって設立されました。先週、ElevenLabsはチェコのベンチャーキャピタル企業Credoのプレシードラウンドで200万ドルを調達したことを発表しています。