画像生成AI「Stable Diffusion XL」登場。DreamStudioならもう使えて、日本らしい人物・風景が簡単に生成できる（CloseBox）

Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」（SDXL）をオープンソース公開する計画であることを明らかにしました。

学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パートナーに対するベータ版提供を行っていますが、パートナーでなくても、DreamStudioユーザーであれば利用できます。

DreamStudioは、Stability AIが提供するAI画像生成サービス。これまで、Stable Diffusionのバージョン1.5、2.1、そして2.1で768×768ピクセルの高解像度描画ができるモデルを利用できていましたが、これにSDXL Beta Previewが加わりました。

▲DreamStudioならSDXL Beta Previewが今すぐ使える

試しに生成（Dream）してみました。プロンプトは「a photographic portrait of Japanese girl standing in front of Tokyo Tower」（ネガティブプロンプトなし）。バージョン2.1の場合、4点同時生成の512×512ピクセルで消費ポイントは13.3。4点生成して、まともなのは1点だけでした。女の子の顔はかなりプレーンな感じで、これが東京タワー？といった違和感もあります。

▲Stable Diffusion 2.1での出力

これに対して、SDXL Beta Previewでは、33.3ポイントと消費量は多いのですが、画像の再現度は大幅に向上しています。同じプロンプトで生成してみました。

▲Stable Diffusion XL Beta Previewでの出力

こちらにも東京タワーでないものが含まれていますが、女性のイメージが圧倒的に違います。Japanese girlと表現しているだけですが、特に違和感のない、日本の若い女性が描かれています。つまり、これがベースになるということで、cuteとかlovelyとかbeautifulとか修飾語を追加すれば、眼を見張るような美人にもお目にかかれるというわけです。

次に、「a photographic portrait of Japanese girl standing in Ginza street」（ネガティブプロンプトなし）で試してみました。これも同様の結果が出ました。

▲Stable Diffusion 2.1での出力

▲Stable Diffusion XL Beta Previewでの出力

Stability AI日本代表ジェリー・チーさんがインタビューで課題として挙げていた、日本における風景や人物像がかなり改善されたのではないかと、ちょっと使っただけですが、感じ取れました。

チャットAI、うちもやります。Stable Diffusion開発元が語る、ジェネレーティブAIと「Stable Chat」の未来 | テクノエッジ TechnoEdge

今話題のジェネレーティブAI革命の大変動を巻き起こした企業、Stability AIの次の展開が、清水亮さんとの対談で今、明らかに。

https://www.techno-edge.net/article/2023/02/24/921.html続きを読む »

SDXLのモデルが一般公開されれば、Stable Diffusion Web UIでローカルで動かしたり、MemeplexなどのWebサービスで気軽に使い、カスタム学習することも可能になるでしょう。人物描画では他のモデルにちょっとばかり後れをとっていたStable Diffusionが、また注目を浴びそうです。