生成AIグラビアをグラビアカメラマンが作るとどうなる? 第22回:Stable Diffusion 3リリース。ComfyUIを使いAPI経由で生成(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載記事一覧』



API経由ながらStable Diffusion 3が利用可能に!

今年、2024年2月24日に次世代Stable Diffusion、Stable Diffusion 3が発表された。いろいろな特徴があるのだが、画像品質の向上はもちろんのこと、Stable Diffusion (XL) が苦手だった文字 (但し日本語などは除く) にも対応し、早く使いたかったものの、まだ一般が試せる状態ではなかった。

ところがつい先日の4月17日、Stability AI Developer PlatformのAPI経由で利用可能となったので、使ってみたのが今回の内容となる。

APIを使うにあたって必要なAPI Keyは、Stability AI にアカウントを作ると用意され、自動的に24クレジットが付加される。1枚作って消費するクレジットは以下の通り。

  1. Stable Diffusion 3は1枚6.5クレジット

  2. Stable Diffusion 3 Turboは1枚4クレジット

参考までにStable Diffusion XLだと0.2から0.6クレジット。初物なので仕方ないとは言え10倍前後の差がある。

いずれにしても25クレジットだと数枚生成すれば0になってしまい、この場合はチャージすることになるが、$10で1,000クレジット。まぁそんなに高いわけでもないので、切れたらチャージすればいいだろう。

問題は何のアプリで生成するか?一般的なAUTOMATIC1111は未対応、Pythonのプログラムを書けばいいのだが、それも面倒…っと思っていたところ、ComfyUIのカスタムNodeが出たので早速使用した

ComfyUIのカスタムノードでStable Diffusion 3を使う方法

ComfyUIのStable Diffusion 3対応カスタムNodeをComfyUIで動かす手順は以下の通り。

  1. https://platform.stability.ai/ でアカウントを作る

  2. 右上にある自分のアイコンをクリックすると、左側にAPI Keysの項目があるので選択

  3. KEYの部分を何かにコピーしておく

platform.stability.ai
アカウントを作ってログイン後、API Keysのページ。ここでAPI Keyをコピー

次にComfyUIでStable Diffusion 3のNodeを利用できるようにするには…。

  1. [ComfyUIホームフォルダ]/custom_nodes へ移動

  2. git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-StableDiffusion3-API

  3. cd ComfyUI-StableDiffusion3-API

  4. config.jsonを開き、先のAPI Keyを入力して保存

  5. ComfyUI起動

これでOK。簡単だ!

Nodeは何も無いところでダブルクリック、検索パネルを出して、zho(作者の名前)で検索すれば”Stable Diffusion 3”があるので、それを選択する。以下のようなNodeが出れば正解。

検索パネル。zhoでStable Diffusion 3を探す
IMAGEからPreview Image(もしくはSave Image) Nodeを繋ぐ

仕上げはこれだと生成した画像が見れないので、右にあるIMAGEからPreview Image (もしくはSave Image) Nodeを繋ぐ。これで準備完了だ。

早速生成!

この状態でPromptに「cat」、Negative Promptに「worst quality, low quality」が入っているのでそのまま生成したのが以下の猫の画像。

次に、「(best quality:1.2),photo of a japanese woman, 20 years old, (off shoulder sweater:1.2), short hair, standing」(画面キャプチャ)。

早速生成!
1
2
  1. Nodeデフォルトの猫

  2. sd3 turbo

Nodeを見るとmodelをsd3とsd3 turboの切り替えができる。sd 3 turboにして同じPromptで作ったのが2となる。

また特徴として文字が描画出来るとあったので「photo of a japanese woman, 20 years old, standing, maid cosplay, at maid cafe, name is "Techno Edge"」としたところ、それっぽい場所にカフェ名のTechno Edgeと入った!

1
2
  1. Techno Edgeカフェ。文字が出ている!

  2. ボケがかかってしまう画像。おそらく太ももなどが出ているからだろう。この程度でセンシティブとは意味不明

いずれも解像度は2:3で832x1,216px。これはStable Diffusion XLと同じだ。そう考えると、Stable Diffusion XLは当初、純正のModelだと人肌がツルツルでイマイチだったが、そこはクリアしているのが分かる。

今後、普通にHugging FaceやCivitaiにModelが掲載されれば、いろいろなリアル系やイラスト系のModelが出て面白そうだが、はたして一般家庭用最大VRAM容量の24GBで学習できるのだろうか? こればかりは実際ものが出てこないと分からない部分でもある。

さてAPIを使った場合の最大の弱点は、筆者が好んで出しているグラビア系=肌色過多は、APIのリターン時に”content_moderationエラー” (不適切な内容をモニタリングエラー) となるか、ご覧の様にボケた画像が出てくる

この画像、左側と同じPromptでたった1枚得るのに6回ほどエラーもしくはボケた画像が出てきた。最近、LLMも含め、海外のこの手のサービス(システム)は、センシティブなものに過激なほど敏感。そのうち人がらみは何も出なくなるのでは!?(笑)。

今回締めのグラビア

本来ならStable Diffusion 3で扉とグラビアを出したいところだが、まだ、そこまでの絵が出ないのと、少し女性がからむと、結構な割合で、エラーかボケた画像。でもクレジットは減る…と、使えない状況なので今回は諦めた。ローカルで生成出来るようになったら再チャレンジしたい。

そこで、今回はまだ未完成?の筆者が撮影したグラビアを学習させた、自作リアル系Modelを使ってみた (扉とグラビアは別の試作Model) 。ご覧の様に、リアル系はリアル系でも (当たれば) 、あまり見かけない肌感になっててちょっと面白い逸品となっている。

筆者自作のリアル系Model使ったグラビア!

話を戻すと、Stable Diffusion 3が出る前、2月13日にStable Cascadeが発表されている。どちらが本命なのだろうか!?今のところStable CascadeのModelはいくつか出ているものの、決定打的なものは未だ無い。さてどうなることやら…。


《西川和久》
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。