前回の記事では画像生成AIを使い、どこにでもいそうなありふれたおじさんを生成する流れを紹介しました。今回は、なぜおじさんを生成するのか、そこから何を得たいのか、その理由について述べたいと思います。
なお今回も画像は一部を除いて全てComfyUI上でSDXL DPO TurboとDeepShrinkを使って生成しました。前回同様、生成後に手を加えていませんが、大量に生成したものから抜粋しています。
おじさんは美しくない
画像生成AIは魔法の道具ではありません。その仕組みに解明できていない部分はあっても、無から画像を生成するわけではないのです。今広まっている画像生成にも手法は幾つかありますが、大量の既存の画像を解析し、その表現が持つ何かしらの特徴を蓄積し、それを元に再表現を行うという点は共通しています。なおその解析等の処理は一般的に「学習」と呼ばれています。
生成できる表現が解析したデータに基づく以上、柔軟で広範囲な生成を可能にするには大量の画像が必要です。そうした大量の学習用データを集めたものはデータセットと呼ばれます。たとえばStable Diffusionが利用していることで有名なLAIONという団体の提供するデータセットは、多いもので数十億件の画像の情報を含みます。
データセットに含まれない表現
データ量は多いほど良いとは限らないようですが、少なすぎても十分な表現力を持てません。そして存在しないデータはそもそもまともに扱えません。
たとえばSDXL DPO Turboは食材としてもありふれた植物の「茗荷」を生成できません。"myoga"というプロンプトで生成すると、たとえば次のような画像が生成されます。
これは神仏の加護を指す「冥加」からきたものでしょうか。表現を変えて"japanese ginger"や"myoga ginger"、学名の"zingiber mioga"などに変えてもやはり生成できません。
これはChatGPTに付属のDALL-E 3で生成したものです。こちらの場合植物として扱われてはいて、どこかに茗荷の要素も含まれます。しかしやはり実物からは遠く、茗荷という表現が正しく含まれていないと考えられます。
こうした欠落は、茗荷を表現した画像がデータセットに含まれていない、あるいは含まれていても茗荷であると正しくラベリングされていないことから生じます。茗荷という日本以外でほとんど食べられない植物は、数十億枚の巨大なデータセットからでも抜け落ちるのです。
データセットの偏り
データセットに含まれる画像は、同一の概念になるだけ多くの異なる表現があるのが望ましいです。ところがそれにより、表現の偏りが生じます。たとえば多くの画像生成AIは、日本の伝統的な寿司をまともに描けません。
これは"traditional sushi"として生成したものです。"edomae sushi"などのプロンプトを入力しても同様で、サーモンや裏巻きが頻出する、外国で普及しているイメージの寿司が描かれてしまいます。"kohada"や"anago"などの素材を指定しても反映されませんし、英語名や学名に変えても同じです。
恐らく寿司はあまりに世界で普及したために、存在する寿司を表現した画像の割合が、日本国内よりも他国の方が多くなっているのでしょう。伝統的な寿司の画像が"sushi"という語に少量しか結びついていなければ、そこにあった表現が出力される可能性は低くなります。
おじさんのボリューム
データセットには常に偏りがあります。既存の表現を集めたものである以上、必ず世界そのものが持つ表現の偏りが反映されるためです。それは差別や陰謀といった直接的な意思によるものではなく、現実が持つ、受容され変化してきた今現在までの偏りの集積です。
おじさんはこの偏りに大きく影響を受けそうなモチーフです。世界中に存在する全ての人物写真を見比べられるなら、「どこにでもいそうなありふれたおじさん」の割合は、偏りと呼ぶのに十分なぐらい少ないのではないでしょうか。
そもそも世界に存在する画像の中に、ありふれたおじさんを表現したものが少ない以上、それは日本ローカルの香味野菜が抜け落ちるのと同じ構造で偏るのです。
美しくないもの
こうして偏ったおじさんの割合は、データセット構築の過程で更に減らされている可能性があります。
たとえばブレのひどい写真だとか、まともに被写体を捉えていないだとか、個人の雑すぎるスナップだとか、データセットとして不適切な品質の画像は除外が必要です。望ましくない表現を学習したモデルは望ましくない表現を出力するからです。
あらゆる写真の内、商業的なものや丁寧に撮影されたものの中で、どこにでもいそうなおじさんの写っているものは多いでしょうか。美しい女性とされるような写真に比べると、恐ろしく少ないのではないでしょうか。
ほとんどの開発者や利用者が画像生成AIに期待する出力とは、「美しい」ものでしょう。いわゆる被写体がきれいだとかとは違う、適切に表現されていて、見たものに影響を与える質を持った、という意味での美しさです。
そうした美しい画像の出力が志向される以上、データセットからありふれたおじさんはさらに除外されます。それは誰かの意図した偏見でなく、現在の社会の表現に対する評価が現れた現実の反映です。
美しくないものを生成できるのか
画像生成AIに触れてすぐに、「日本人の中年男性」を生成する試みを始めました。最初は自分に近い存在が描けるのか気になった程度だったのですが、その出力のひどさにデータセットの偏りを意識しました。
おじさんの、しかも日本人という限定が加わると、データセット内では恐ろしく小さい。寿司や茗荷、侍、浮世絵なども同様に小さい。画像生成AIが発展していくのは目に見えていたので、こうした要素が指標になると考えました。以来おじさんの生成を続けています。
美しいとされるものは、人の手で表現されます。美しくないものは糾弾される以前に無視され、表現すらされません。人の表現からデータセットを作り、それを学習する画像生成AIには、美しいという価値基準がもたらず偏りが現れます。
抜け落ちた世界
その偏りは大きく解消されてきました。この記事のおじさんたちが中々ありふれた感じに出力できたのは、そのおかげです。しかしまだどこか整いすぎていたり、顔のパターンも感じます。現実のおじさんが持つありふれた存在感のバリエーションに欠けます。
そしておじさんより忘れ去られたものが無数にあります。既存の表現の中で扱われてこなかったり、数量の少ないもの全てがまともに描けません。それは国や文化の単位でも大きく偏っています。
人口の小さな国はそれだけ表現される機会も少ないでしょう。経済規模も同じような影響を与えます。孤立した国家はやはり機会が少なく、戦乱なども如実に影響するでしょう。国家でなく文化でも同様です。英語圏とそれ以外には大きな差が生まれます。宗教も隔てて偏りを生みます。
偏りを減らす
偏りの解消を叶えるひとつの方法は、データセットと学習の規模拡大です。これはすでに繰り返されています。Stable Diffusionが1.5から2、XLと進むに連れ、あるいはMidjourneyにせよDALL-Eにせよ、バージョンが上がると同時に学習の規模も拡大しています。それでもまだ茗荷が扱えないのだから、欠落は酷い状態でしょう。
もうひとつの方法は、直接的に偏りを調べ、対応するデータを増やすことです。これはJapanese Stable Diffusion XLのように、特定の言語や文化に注目したモデルの開発によって多少試みられています。しかし偏りの解消よりも市場性が重視されるだけでは、規模の小さな国家や文化は無視されたままです。
ジェンダーや人種という単位であれば、その偏りの解消に企業も敏感です。しかし文化という単位が注目されることは少なく、まして寿司に現れたように「普通」を左右してしまう場合、単にデータの増加では対応できない衝突も含みます。
ありふれたおじさんは随分描けるようになってきましたが、まだまだ足りません。もっと自由に、どこにでもいる美しくないおじさんの生成を求めています。生成AIが普及すればするほど、表現の偏りという問題は大きくなるでしょう。おじさんはその偏りを象徴するわかりやすい指標です。
おまけ
どこにでもいそうなおじさんが比較的自由に生成できるようになってきたことで、去年の中頃にはとても難しかった表現が可能になっています。
たとえば以下の4枚の画像は、それぞれおじさんに「ロボット」「ファンタジーの騎士」「スチームパンク」「サイバーパンク」を組み合わせたものです。以前はおじさん部分を十分保ったままでのこうした合成表現は難しいものでした。
プロンプトの反映やその他の制御とともに、データセットの拡大と偏りの解消が進めば進むほど、こうした自由な概念の組み合わせも安定して可能になる筈です。こうした遊びもしながら、引き続きおじさんを使って生成AIの変化と進化を楽しもうと思います。