生成AIグラビアをグラビアカメラマンが作るとどうなる？第43回：SDXL再考 and Lumina-Image 2.0（西川和久）

FLUX.1 [dev]のテイストに飽きた！？

去年（2024年）8月以降、生成AI画像は、FLUX.1 [dev] 及びこれをベースにしたcheckpoint一色になってしまった。後追いでSD 3.5（Large/Medium/Large Turbo）も出るには出たが、全く勢力を伸ばせていないのが現状だ。

半年経った今、FLUX.1で何も不自由していないのだが、他のベースにしたcheckpointを使ってもあまりテイストが変わらず少し飽き気味（笑）。そこで今回は「今、SDXLを使ったらどうなのだろう？」と、久々に生成してみた次第。

SDXLの良いところはファイルサイズが小さい、生成速度が速い、Negative Promptが使える、ControlNetなどエコシステムがしっかりしている……となるだろうか。最初の2つは”GPUが強くないPCでも利用可能”という利点にもなる。

半面、最大の欠点は顔や手などが構図の中の面積上狭い場合は崩れるといったところか。これを何とかするためADetailerを使っていたのは懐かしい話だ。

さて、PONYも含めSDXLの現在であるが、Civitaiでは相変わらず人気があり、今だに結構な数のcheckpointが投稿されている。一覧を眺めていると、FLUX.1以前に好んで使っていた 9527 Detail Realistic XL がv7.0になっていたのでこれをチョイス。

設定は、

Steps: 35
CFG: 5.5
Sampler / Scheduler: Euler / Simple
解像度: 843x1216
Negative Prompt: (worst quality:1.2), illustration, 3d, 2d, painting, cartoons, sketch,

とし、Prompt側でいろいろなシーンを生成したのが左側。右側は以前ご紹介したDetail Daemonを使用しUpscale x1.58した後、左側の解像度と同じになるよう、832x1216へ縮小した画像となる。

9527 Detail Realistic XL v7.0 (SDXL)	+ Detail Daemon Upscale 1.58xから縮小

如何だろうか？　Detail Daemonのdenoiseを0.4にしていることもあり、結構書き換わっているが、その分、欠点だった解像度不足で顔や指が崩れるのをうまくフォローしているのが分かる。

ただ顔が変わり過ぎるので、顔LoRA目当ての用途には向かない感じか。この場合、Detail Daemon側に顔LoRAを当てるとそれなりに特徴が出る。

Detail Daemon自体は処理時間がかかるものの、SDXLでガチャって良いのだけ処理するため効率的にも悪くない。併用だと「結構いける！」となるだろうか。

他のパターンだと、例えばRefinerにFLUX.1を使ったり、img2imgでFLUX.1を使ったり、後でFLUX.1を軽く被せるといい感じになる可能性があり、興味を持った方は是非オリジナルのWorkflowを作って欲しい。SDXLにちょっとFLUX.1のテイストが加わった、これまでにない別の画風に仕上がるはずだ。

Lumina-Image 2.0

次はSDXLやFLUX.1とは異なるアーキテクチャを採用した Lumina-Image 2.0。興味深いのはテキストエンコーダーにGoogleのGemma 2 2Bを使っていること。これは元々スマホなどでLLMが使えるように作られたもの。2Bとコンパクトなので過度の期待は禁物だが英語だけなく日本語などでもPromptが書ける（実際は書けるのは書けるが英語の方が調子いい）。

デモがここにあるのでサクッと試すことも可能。見るとSystem Typeの項目があり、ここに、

You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.
※Google翻訳: あなたは、テキストのプロンプトまたはユーザーのプロンプトに基づいて、画像とテキストの高度な位置合わせを備えた優れた画像を生成するように設計されたアシスタントです。

もしくは、

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts.
あなたは、テキストのプロンプトに基づいて画像とテキストの位置が最高度に調整された※Google翻訳: 高品質の画像を生成するように設計されたアシスタントです。

とあり、どちらかをセットする。LLMのSystem Promptのようなもので、User Promptにどう答えるか、の初期設定が行われている。この辺りはGemma 2 2Bを使っている面白さでもある。

デモで興味を持ったら次はComfyUI。既に対応済みなのでcheckpoint(AIO/10.6GB) さえダウンロードすれば簡単に試すことができる。なおWorkflowは、このページにある画像をComfyUへドラッグ&ドロップすればOKだ。