生成AIグラビアをグラビアカメラマンが作るとどうなる？第36回：Stable Diffusion 3.5 Large TurboとMedium（西川和久）

テクノロジー AI

2024 Nov 21 10:05

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる？第36回：Stable Diffusion 3.5 Large TurboとMedium（西川和久）

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

4 stepsで生成可能なStable Diffusion 3.5 Large Turboの実力は！？

前回Stable Diffusion 3.5 Largeの話をしたので、今回は続きのStable Diffusion 3.5 Large Turboと、少し遅れて10月29日に登場したStable Diffusion 3.5 Medium（2.8B）を作例中心でご紹介したい。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第35回：待望のStable Diffusion 3.5リリース！実力を試す (西川和久) | テクノエッジ TechnoEdge

10月22日待望のStable Diffusion 3.5登場！

https://www.techno-edge.net/article/2024/10/28/3790.html続きを読む »

まずStable Diffusion 3.5 Large Turboから。このcheckpointは名前からも分かるように、Stable Diffusion 3.5 Largeの高速版。蒸留してsteps数を約20から4へ落とすことに成功している。ご存知のように同じ設定であればstep数は生成時間に比例し、20から4だと1/5の時間で生成可能となる。

RTX 4090を使いLarge / 20 stepsで約10秒かかるところが、Large Turbo / 4 stepsだと約2秒（実測値）。これならミドルレンジのGPUでも十分な生成速度となるので朗報だろう（参考までにFLUX.1 [dev]は同一環境で約8秒）。

ただ、SDXL TurboやLCM LoRAなど過去にもstep数を減らし高速化する技術はあったものの、出てくる絵は大雑把となるように、このLarge Turboも同様な仕上がり具合となる。これが許せるかどうかで常用するしないが決まる感じだろうか。

checkpointはここにあるので、ダウンロードする。clip/t5/vaeは、Stable Diffusion 3もしくはFLUX.1 [dev]と共通で、ComfyUIのWorkflowはLargeのものを流用（steps 4とcfg 1.5前後など一部値が変わる）。Forgeは git checkout sd35 でLargeとLarge Turboは利用可能となる（Mediumは執筆時未対応）。

では早速いくつか作例をご覧頂きたい。以下は以前Largeで掲載した時のPromptをそのまま使ったものだ。

Turbo系はざっくりした大雑把な絵と書いたが、それでもそこそこ出ているのがお分かりいただけるだろうか？　「速いしこれでOK」な人もいらっしゃるだろう。なおLoRAはLargeのものがそのまま使える。

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Mediumは、Stable Diffusion 3の直系にあたるアップデート版だ。パラメータも2Bから2.8Bに増え、3で問題のあった体の崩れなども修正されている。注意点としては、Large (Turbo) のLoRAが使えず、Medium専用のLoRAが必要になること。つまり同じ3.5でもLarge (Turbo) とMediumの2系統あり、使用時に気をつけなければならない。

またLarge (Turbo) も含め体の崩れや指の不都合などは完全に直っていない。もともとStability AIのベースモデルは、SD 1.5やSDXLでも分かるように、そのままではなく、チューニングして使うのが前提となっており、FLUXほど完全な形でのリリースではない。

WorkflowはLargeと同じだが、設定はStep 20以上、CFG Scaleを4.5（前後）となる。生成速度はRTX 4090で約4秒。丁度LargeとLarge Turboの間に相当する。更にMediumだけ2MPにも対応、最大1440x1440ピクセルの画像を生成できる。

checkpointはここにあり、clip/t5/vae、WorkflowはLarge (Turbo) と同じで良い。以下、Large Turboと同じPromptで生成した画像だ。

ぱっと見た感じ、Large Turboより絵がしっかりしているだろうか。ただ2.8BということでPromptへの理解度は低目でLarge Turboと随分異なる絵柄もある。加えて複雑なもの（二重露光やリアルとアニメの融合）などはヒット率が低くなり、結果、結構ガチャっている。

また3.5共通だが、硬調なFLUX.1 [dev]と比較してリアル系は軟調。しばらくどちらかを使い、逆へ戻ると「え！？」と思うこともしばしば（軟調、硬調の解説）。

残念なのはリリースから1月ほど経っているが、（実用的な）checkpointやLoRAが全然増えないこと。先にFLUX.1 [dev]を見てしまったので「これでいいじゃん！」というところだろうか。ただStable Diffusion 3.5は、FLUX.1 [dev]には無い魅力があるので頑張ってほしい。

今回締めのグラビア

今回の締めのグラビアは（扉も）、Detail Daemonと言う手法でStable Diffusion 3.5 MediumをUpscale（1.58x）し掲載した。通常のUpscaleでもDenoiseの値を0.4などとし、書込み量を増やすが、それとは違う手法で書込み量を増やしている。

元画像も結構頑張って実写に近づけているものの、どうしても肌感などAIっぽさが残ってしまう。これを和らげる（実際は多く書込みリアルさを増す）のがDetail Daemonと言うわけだ。もちろんFLUXでもSDXLでもSD 1.5でも有効。

Stable Diffusion 3.5 MediumとDetail Daemonを使ったグラビア！

いかがだろうか！？スタジオ撮影したポートレートそのものっぽい絵に仕上がっている……と思う。できれば目の下のクマやほうれい線などSNOWで消したいところ（笑）。そしてグラビアも扉もFLUX.1 [dev]では出ない軟調な絵。特にデジイチで実際撮影している人からすればこちらの方が好みでは？

今回、Large TurboとMediumの説明だけで長くなってしまったので詳細は次回としたい。気になる人はここにComfyUIのカスタムNodeがあるので試していただければと思う。コツは Detail Daemon Sampler の detail_amount の調整。効き具合が変わってくる。次回へ続く……。

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

《西川和久》