中国のIT大手Baidu(百度)が開発し、二次元キャラの生成に強いことでも話題になっている画像生成AI「ERNIE-ViLG」で、特定のワードを使った画像生成がブロックされることをMIT Technology Reviewが伝えています。
中国でブロックされる特定のワードといえば、言うまでもなく政治的にセンシティブな言葉のこと。たとえば「天安門広場」や「中国の革命」、また現在の中国の指導者の名前などを入力して画像を生成しようとしても「入力されたコンテンツは関連するルールに沿っていない」といった旨の警告メッセージが表示されるとのこと。実際に、米Hugging Faceが公開している、ERNIE-ViLGを試せるページで「维尼熊」というワードを使って画像生成をしようとしたところ、やっぱり警告メッセージが表示されて画像の生成ができませんでした。
ところで、テキスト画像生成AIに禁止ワードがあること自体は、別に珍しいことではありません。OpenAIが開発している「DALL・E 2」にしても、最近人気の「Midjourney」にしても、たとえばポルノや暴力的なものやことに関連する言葉だったり、いくらかの政治的な意味合いを持つ言葉は使えないようになっています。ただ、それはあくまで開発元による自主的な制限であり、政府、国家機関の介入によるものではないはずです。
一方、ERNIE-ViLGにおける禁止ワードの設定も、自主的か政府の圧力への対応は定かではないものの、国から検閲されている中国国内のSNSと同じように、政府に対抗する意見や思想を鎮圧するために管理されたものと考えられます。
ERNIE-ViLGそのものは、Baiduの説明では100億以上のパラメーターを介し、1億4500万枚以上の画像とテキストのセットを食わせて鍛え上げたとされ、テキスト画像生成AIとして非常によくできています。また中国語テキストから画像生成ができるという点でもユニークと言えるでしょう。しかし、ここ最近の中国国内におけるIT企業への締め付け強化の傾向を考えると、中国でテキスト画像生成AIに大っぴらな規制導入があっても、それほど驚く人はいなさそうです。