生成AIグラビアをグラビアカメラマンが作るとどうなる？第27回：SD3 Mediumリリース！Part2(西川和久)

テクノロジー AI

2024 Jul 2 11:39

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる？第27回：SD3 Mediumリリース！Part2(西川和久)

現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。

『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』

前回に引き続きStable Diffusion 3 Mediumの話

連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第26回：ローカルで使えるSD3 Mediumリリース！実力を試す(西川和久) | テクノエッジ TechnoEdge

ローカルPCで生成可能なStable Diffusion 3 Medium、遂に登場！

https://www.techno-edge.net/article/2024/06/17/3474.html続きを読む »

前回の記事ではSD3 Mediumの特徴として

Baseモデルなのに高画質。そして日本人含むアジア系もOK
商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約
結構な頻度で致命的な問題が発生する
Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ)
生成環境は現状でComfyUI(系)のみ。基本Workflow紹介
同一設定でのSD3 MediumとSDXL(cyberrealisticXL_v10PlayVAE)との比較

をご紹介した。

まず2の部分だが、従来の商用利用範囲と内容が異なっている。違いは、

SD3 Mediumを使って学習したモデルを公開するには商用ライセンスが必要
SD3 Mediumで出力した画像を学習に使った場合、それで出来たモデルを公開するには商用ライセンスが必要
※ 画像のみの使用(掲載)は含まれない

原文はここにあり、中でも1がかなり問題で、SD3 Mediumを使って学習したLoRAやモデルを公開すると商用利用とみなされ個人の場合、クリエイターライセンスを契約しなければならなくなる。

これには流石に多くのモデルなどを掲載しているCivitaiが猛反発。現在、SD3関連はWorkflow以外非公開となっている。

早い話、利益化を急いだわけだ。企業として霞を食べてばかりでは生き残れないので、ある意味仕方ない部分でもある。が、個人的にはやり方が間違っているように思う。その理由が3、致命的な問題があること。

前回掲載した画像などを見れば分かると思うが、当たると、つまり運よく問題がない画像を引き当てると、SDXLも吹き飛ぶ凄まじい絵が出てくる。

が、リアル系の場合、例えば lying downと書くと、ご覧のようにオカルト映画でもなかなかお目にかかれないホラー画像が出現する。

”a photo of a Japanese woman lying down on a bed.”とPromptに書くとこうなる。特にlying downは鬼門

これは一例だが、手や指は言うまでもなく、二の腕が激太かったり、下半身がメチャクチャ、ヘソがおかしい(大来過ぎる小さ過ぎる、無い、複数)…UpscaleのDenoiseを1にしたようなとんでもない絵が結構な頻度で出る。

つまり無難な構図は上半身+手指無し。ここに掲載している作例だ(笑)。少し試せば分かるので、同社は知ってリリースしている。

もうお分かりかと思うが、これでは誰もついてこない。有料のMidjourneyが何故これだけ流行っているのか？それは見合うクオリティがあるから。クオリティを激落ちさせたうえにあれもこれも商用利用では反発されて当然だ。

仮に現在の商用利用範囲を変えたくないのなら、完全版のSD3 Medium、加えてLarge、Ultra全部オープンで出し、「ここまで頑張りました！引き続き、SD4やSDXL2を開発したいので、何卒ご協力を…。」的な感じだったらまた違った話になったのではないだろうか(ただできれば、クリエイターライセンスは$20でなく$10とか安めに)。

このままだとSD2系同様、コミュニティからは無かったものにされてしまう可能性が高い。

この件、企業も同様で、学習元画像に何が入っているか分からないモデルは使えないため、それを担保している同社のBaseモデルを使うことになる。

従って商用利用はいいとして、ここまで問題があると、学習させて独自モデルを開発しなければならないが、誰もそんなコストがかかることを望んでいない。

つまり商用ライセンス契約して欲しいなら、ハイクオリティが絶対条件だ。それを真逆の戦略を採っているのだから、出てくる絵柄は良いだけに非常に残念と言ったところ。

SD3 Medium Workflowあれこれ

序盤、少し暗い話になったが、(上記で書いた様な問題が発生しない限り)かなり凄い絵が出るだけに、個人で楽しむ分にはSD3 Mediumを試さない手はない。そこでComfyUIのWorkflow 6パターンをご紹介する。

この3つは、元々SD3 Mediumが公開されているリポジトリにある3つ。1つ目は基本、2つ目はマルチPrompt、3つ目はUpscaleとなる。

ただリアル系でそのまま使うと生成される画像が微妙なので、筆者はご覧の様にNegative Promptの後ろにあるNode 2つをバイバスしている。

SD3 Medium / ControlNet (Tile, Canny, OpenPose)

続いて少し(かなり？)変わった系。1つ目のMulti Step Sampler は、通常28 Stepsで動かすところを、2 Steps x10 + 8 Stepsの合計28 Stepsにしているところ。

Seedが全てランダムになっているので、まんま28 Stepsで作った絵柄とは少し異なるものが出る。だが意味があるのかは不明(笑)。

2つ目は、SD3 MediumでどうしてもNSFW的な絵を出したい人が考案したSDXL Refiner。つまり、40/100 までSD3 Mediumで作り、残りの60/100はSDXLで書く仕組み。

画面右下ノイズまみれの小さい画像がSD3 Medium、その後引き継いでSDXLで書いたのが大きい画像となる。

確かにこれだとNSFWは克服できるが絵柄的にはSDXL。この後、SD3 Mediumでi2iすればいいかも知れないが、それならSDXLで作ってSD3 Mediumでi2iすれば良い。うーん、と言う感じだ。

3つ目は真面目なのを。SD3 MediumでもControlNetのTile / Canny / OpenPoseが使える様になった。

ただComfyUIで普通にLoad ControlNet Model→Apply ControlNetとしても執筆時点では動かず、何時もお世話になっている ZHO-ZHO-ZHO 氏のカスタムNodeを使う必要がある。

Workflow中程にある上3つがTile / Canny / OpenPoseそれぞれのローダー、下2つがプリプロセッサ。Tileは元画像をそのまま使うのでプリプロセッサは不要だ。これを必要に応じて繋ぎかえることになる。

LoRAに関しても一時期Civitaiに実写をアニメ化するものなど、若干上がっていたのだが、今は先の問題で全て非表示となっている。

今回締めのグラビア

今回のグラビアも引き続きSD3 Medium(扉の写真も)。早いものでもう7月。と言うことで。「ちょっと気になる海の家のバイト女子」(笑)的な感じとなる。

SD3 Medium、感心するのは”普通の女子”が出せること。これはBRAV6登場！の記事でも書いたが、多くの美女リアル系モデルは、1girlやwomanと書くだけで、ここぞとばかりに美女が出てくる。逆に言えば普通の子が苦手。これはそもそもモデルを作った作者がそう願って学習させているので仕方ない(笑)。

それがご覧の様にちょっと可愛い普通の女子が出てくる。ベースモデルでこれなのだから、学習させれば凄そうだが、今のところ、上記した商用ライセンスにひっかかり、SDXLの様に数多く出るかどうかは不明。来月以降、情勢が変わっていればいいのだが…。

『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』

《西川和久》