生成AIグラビアをグラビアカメラマンが作るとどうなる？第35回：待望のStable Diffusion 3.5リリース！実力を試す (西川和久)

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

10月22日待望のStable Diffusion 3.5登場！

以前Stable Diffusion 3 Mediumのクオリティ問題で、数週間後に修正版を出すと発表があったが、10月22日、遂にその修正版がStable Diffusion 3.5 Largeとなって登場した。

Largeなので8B(Mediumは2B)と、大幅にパワーアップしてのリリースとなる。同時に蒸留版で高速生成可能なStable Diffusion 3.5 Large Turboもリリース。

加えて10月29日にはStable Diffusion 3.5 Medium(2.8B)も公開予定だ。今回はこの中からStable Diffusion 3.5 Largeで生成した画像中心にご紹介したい。

まずcheckpointはここにあるので、ダウンロードする。clip/t5/vaeはStable Diffusion 3もしくはFLUX.1 [dev]と共通となる。

確認した生成環境はComfyUI。公式が出しているWorkflowは以下の通り(bypassしているのはLoRA)。Forgeは元々Stable Diffusion 3に対応しているので動くかも知れないが、申し訳ない、未確認。

Stable Diffusion 3.5 LargeのComfyUI Workflow

Workflowの中をザックリ見ると、checkpoint、clip/t5/vaeがバラバラのunet式だ。clipはclip_lとclip_g、そしてt5xxlの3つを使用。

Clip TextはNegativeも含め2つあり、Negative側はちょっと複雑な経路になっているが、ConditioningZeroOutがつながっているのでそもそも使えない。Promptのみの入力となる。

加えてcheckpointのMODELとKSamplerのmodelの間にModelSamplingSD3が3.0で入っている。

違いはこの程度で、KSamplerの設定は

steps: 40
cfg: 4.5
sampler: dpmpp_2m (eulerでも行ける)
scheduler: sgm_uniform

となる。この時点でお分かりだと思うがsteps 40は結構遅い(試した範囲だと30でも大丈夫)。またcfgが1より大きいので、1の時より倍の時間がかかる。

以降、掲載している画像は832×1,216、steps: 30、cfg: 4.5、sampler: eulerとしているものの、RTX 4090でも15秒ほどかかる。同じ環境でFLUX.1 [dev]が約8秒。ここはちょっと残念な部分だ。

まずありがちなパターンを4つ。文字出し、リアル系、イラスト系、リアル+イラスト混合系。ご覧の様に無難に生成できている。

指や体が崩れる問題は、随分良くなったものの、やはりあるにはある。ただFLUX.1 [dev]でもダメな時があるので、同レベルは仕方ないところだろう。

ここで気になるのは顔つき、肌の発色や質感。Stable Diffusion 3 Mediumとは随分違う。以前Stable Diffusion 3 Mediumのサンプルを掲載した以下の記事から1枚持ってきたのと(左)、

生成AIグラビアをグラビアカメラマンが作るとどうなる？第26回：ローカルで使えるSD3 Mediumリリース！実力を試す(西川和久) | テクノエッジ TechnoEdge

ローカルPCで生成可能なStable Diffusion 3 Medium、遂に登場！

https://www.techno-edge.net/article/2024/06/17/3474.html続きを読む »

Stable Diffusion 3.5 Largeを使い(ほぼ)同じPromptで生成した画像で比べるとこんな感じとなる。前者の方が自然と言えば自然。Stable Diffusion 3.5 Large (右)はいかにもAIっぽい顔/肌となる。

ただこれはPromptの書き方や西洋系か東洋系などでも随分変わるので、あくまでも参考程度として見て欲しい。

この画像は全く同じ設定で、一つはwoman (左)、もう一つはjapanese woman (右)としての違いとなる。この手の感じだと然程AIっぽくない顔つきだ。

いずれにしても体が崩れる問題で、datasetの人の部分は大幅に入れ替えたと思われ、その影響が良い意味でも悪い意味でも出ているのだろう。

次の4枚はリアル系とイラスト系の融合やファンタジー系的な作例となる。扉やWorkflowにある二重露光も含め、この手の画風はStable Diffusion 3.5 Large得意かな！？と言った感じだ。

Stability AIのベースモデルはSD 1.5でもSDXLでもそうだった様に、学習したLoRAやcheckpointで大きく変わる。ベースモデルでここまで出来ているのだから、今後に期待したいところ。

今回締めのグラビア

今回の締めのグラビアはもちろんStable Diffusion 3.5 Largeを使い、10月末なので、前回に引き続きハロウィーンネタとなる。

何時もと違うのはUpscaleがうまく動かず、Photoshopで832×1,216を1,280×1,920(両サイド少しトリミング)へ拡大補完していること。

前回のFLUX.1 [dev]の絵柄と比較して、あまりカッチリ出ず、少しマイルドで色に透明感があるのが特徴と言ったところだろうか！？

次回はStable Diffusion 3.5 Large Turboと、きっと出ているであろうStable Diffusion 3.5 Mediumについて書く予定。お楽しみに！

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

生成AIグラビアをグラビアカメラマンが作るとどうなる？第35回：待望のStable Diffusion 3.5リリース！実力を試す (西川和久)

西川和久

特集

10月22日待望のStable Diffusion 3.5登場！

今回締めのグラビア

西川和久

特集

『テクノエッジアルファ』会員募集中

テクノエッジショート動画

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

【生成AI・スマホ・自作PCほか】配信・イベントスケジュール：ライブ配信とリアルに会場へ集う2種類のイベント

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

賞金総額140万円！ゲーム開発コンテスト『Tokyo Game Jam』参加者募集。ハッカソンの参加のコツとは？

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

西川和久

特集

10月22日待望のStable Diffusion 3.5登場！

今回締めのグラビア

SHARE THE STORY この記事をみんなにシェア

西川和久

特集

『テクノエッジ アルファ』会員募集中

テクノエッジショート動画

『テクノエッジアルファ』会員募集中