生成AIグラビアをグラビアカメラマンが作るとどうなる?第43回:SDXL再考 and Lumina-Image 2.0(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

FLUX.1 [dev]のテイストに飽きた!?

去年(2024年)8月以降、生成AI画像は、FLUX.1 [dev] 及びこれをベースにしたcheckpoint一色になってしまった。後追いでSD 3.5(Large/Medium/Large Turbo)も出るには出たが、全く勢力を伸ばせていないのが現状だ。

半年経った今、FLUX.1で何も不自由していないのだが、他のベースにしたcheckpointを使ってもあまりテイストが変わらず少し飽き気味(笑)。そこで今回は「今、SDXLを使ったらどうなのだろう?」と、久々に生成してみた次第。

SDXLの良いところはファイルサイズが小さい、生成速度が速い、Negative Promptが使える、ControlNetなどエコシステムがしっかりしている……となるだろうか。最初の2つは”GPUが強くないPCでも利用可能”という利点にもなる。

半面、最大の欠点は顔や手などが構図の中の面積上狭い場合は崩れるといったところか。これを何とかするためADetailerを使っていたのは懐かしい話だ。

さて、PONYも含めSDXLの現在であるが、Civitaiでは相変わらず人気があり、今だに結構な数のcheckpointが投稿されている。一覧を眺めていると、FLUX.1以前に好んで使っていた 9527 Detail Realistic XL がv7.0になっていたのでこれをチョイス。

設定は、

Steps: 35
CFG: 5.5
Sampler / Scheduler: Euler / Simple
解像度: 843x1216
Negative Prompt: (worst quality:1.2), illustration, 3d, 2d, painting, cartoons, sketch,

とし、Prompt側でいろいろなシーンを生成したのが左側右側は以前ご紹介したDetail Daemonを使用しUpscale x1.58した後、左側の解像度と同じになるよう、832x1216へ縮小した画像となる。

9527 Detail Realistic XL v7.0 (SDXL)

+ Detail Daemon Upscale 1.58xから縮小

如何だろうか? Detail Daemonのdenoiseを0.4にしていることもあり、結構書き換わっているが、その分、欠点だった解像度不足で顔や指が崩れるのをうまくフォローしているのが分かる。

ただ顔が変わり過ぎるので、顔LoRA目当ての用途には向かない感じか。この場合、Detail Daemon側に顔LoRAを当てるとそれなりに特徴が出る。

Detail Daemon自体は処理時間がかかるものの、SDXLでガチャって良いのだけ処理するため効率的にも悪くない。併用だと「結構いける!」となるだろうか。

他のパターンだと、例えばRefinerにFLUX.1を使ったり、img2imgでFLUX.1を使ったり、後でFLUX.1を軽く被せるといい感じになる可能性があり、興味を持った方は是非オリジナルのWorkflowを作って欲しい。SDXLにちょっとFLUX.1のテイストが加わった、これまでにない別の画風に仕上がるはずだ。

Lumina-Image 2.0

次はSDXLやFLUX.1とは異なるアーキテクチャを採用した Lumina-Image 2.0。興味深いのはテキストエンコーダーにGoogleのGemma 2 2Bを使っていること。これは元々スマホなどでLLMが使えるように作られたもの。2Bとコンパクトなので過度の期待は禁物だが英語だけなく日本語などでもPromptが書ける(実際は書けるのは書けるが英語の方が調子いい)。

Lumina-Image 2.0デモサイト(1/2)
Lumina-Image 2.0デモサイト(2/2)

デモがここにあるのでサクッと試すことも可能。見るとSystem Typeの項目があり、ここに、

You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.
※Google翻訳: あなたは、テキストのプロンプトまたはユーザーのプロンプトに基づいて、画像とテキストの高度な位置合わせを備えた優れた画像を生成するように設計されたアシスタントです。

もしくは、

You are an assistant designed to generate high-quality images with the highest degree of image-text alignment based on textual prompts.
あなたは、テキストのプロンプトに基づいて画像とテキストの位置が最高度に調整された※Google翻訳: 高品質の画像を生成するように設計されたアシスタントです。

とあり、どちらかをセットする。LLMのSystem Promptのようなもので、User Promptにどう答えるか、の初期設定が行われている。この辺りはGemma 2 2Bを使っている面白さでもある。

デモで興味を持ったら次はComfyUI。既に対応済みなのでcheckpoint(AIO/10.6GB) さえダウンロードすれば簡単に試すことができる。なおWorkflowは、このページにある画像をComfyUへドラッグ&ドロップすればOKだ。

Lumina-Image 2.0 Workflow

シーン違いで4つ生成してみた。これらは832x1216のアップスケール無し。生成したままを掲載している。

Lumina-Image 2.0 作例1
Lumina-Image 2.0 作例2
Lumina-Image 2.0 作例3
Lumina-Image 2.0 作例4

他にもいろいろ生成したが、リアル系は綺麗に出るが、リアル美女に関してはのっぺりした顔で且つ彩度高め。2~2.5Dの方が得意な感じか!? 顔LoRAを当てればどうなるが試してみたいところ。

いずれにしても丁度同時期にSDXLを試したばかりなので、性能的には少し上か?だが、指などがおかしくなるのは変わらず(笑)。

今回締めのグラビア

今回締めのグラビアは9527 Detail Realistic XL v7.0 + Detail Daemon Upscale 1.58xで生成した(扉も同様)。Detail Daemonが効いているのか、ちょっとSDXLとは思えない仕上がり具合。これなら違うテイストが欲しい時に使えそうだ。

9527 Detail Realistic XL v7.0(SDXL) + Detail Daemon Upscale 1.58x で作ったグラビア!

まだ2月末なのに桜は少し気が早いのでは?との意見もあるだろう。ところが都内でもTSUTAYA代官山と西郷山公園(の1本)はもう咲き始めている(2月23日時点)。この2箇所は一般的な桜より1月ほど早く咲き、毎年これを見ると「もうすぐ春!」と思う瞬間だったりする。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。