現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第31回は、話題の新画像生成モデル FLUX. 1 を扱うフロントエンド新型Forgeのセットアップと使い方、そして強力なGPUやPCがなくてもFLUX. 1を試す方法について。
『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧』
■新型Forgeその後
前回、新型Forgeについて「今回掲載しなかったのは、とにかく毎日凄いcommit量で、git clone/pullするタイミングではうまく動かない可能性がある」と書いたが、執筆時点でもこの状況は変わっていない。
ただステータスが8月26日に追加され、
ControlNets (Union) Not implemented yet, pending implementation
ControlNets (Flux) Not implemented yet, pending implementation
と、なっている。
これはControlNetが現在、XLabs AI版 と InstantX版 の2種類あり、ComfyUI的に表現すると違うNodeになっている=内容が共通でない状態で、バラバラなのに対応するのか?とペンディングにしているのだろう。
いずれにしても執筆時点ではFLUX.1のControlNetには未対応のままだ。
そもそもlllyasviel氏はControlNetを作った本人であり、もしかすると、SD 1.5やSDXLの様に彼自らFLUX.1用ControlNetモデルを作るかも…っと筆者は思っている。
各モデルタイプ(fp16/fp8/nf4/gguf)とLoRAの相性は調整が終わっており、どのモデルタイプでも使用可能となっている。
ただ1回目はLoRAを展開する時間がかかり、VRAMもそれなりに消費するため、VRAM容量によっては動かないケースがあるかも知れない。
さて、FLUX.1でControlNetが使えない代わりではないが、Forgeに無かった新機能[Spaces]がメインのタブに追加された。画面を見ると、
Animagine XL 3.1 Official User Interface
BiRefNet for Background Removal
Florence-2: Image Captioning and Object Detection
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image
IC-Light: Imposing Consistent Light (Foreground Model)
IDM-VTON: Virtual Try-on with your image and garment image
IllusionDiffusion: (Monster Labs QR Control Net)
PhotoMaker V2: Improved ID Fidelity and Better Controllability
ライトコントロールのIC-Light、着せ替えのIDM-VTON、画像に何があるのか分析するFlorence-2、簡単にStyleなどを変更できるPhotoMakerなど、結構単独で有名なものが並んでいる。
これらをSpacesへ入れ、Forgeで簡単に体験できる様にした…と言う意図らしい。
またForgeはPort 7860で動くが、SpacesのアプリはPort 7861と、別ウィンドウで起動する(この特性からSpacesのアプリは同時にいくつも起動できず1つだけ)。
確かにこれらをインストールするには独立したPythonの環境を作り、git pull、pip install、使用するモデルを別途ダウンロードと、結構手間がかかる。
SpacesでInstall、そしてLaunchで一発起動出来るならこれはこれでありがたい。
■新型Forgeのセットアップ
前置きが長くなってしまったが、新型Forgeをインストールしてみたい。Windows + NVIDIAのGPU環境であれば非常に簡単!
1. ここから.7zをダウンロード
2. 適当なフォルダへ.7zを展開
3. update.bat実行
4. run.batを実行
これで新型Forgeが起動する。拍子抜けするほど簡単だ(笑)。
なお初回は環境設定を行うためそこそこ時間がかかるが、ここはじっと待つ。準備が出来たら自動的にWebブラウザと共に起動する。
そして前回触れたt5/clip/vae全部入りのFLUX.1 [dev] fp8 を
Forgeをインストールしたフォルダ/webui/models/Stable-diffusion
へコピーすれば準備完了!早速FLUX.1 [dev] fp8で画像を生成してみたい。
■FLUX.1 [dev] fp8を使って生成してみる
FLUX.1 [dev] fp8で画像を生成する時は、Checkpointで flux1-dev-fp8.safetensors を選び(出ない時は横のリフレッシュボタンを押す)、UIの sd/xl/flux/allをfluxへ変更する。
これで必要な項目のデフォルトが入り生成可能になる。あえて変えるとすれば幅と高さを(筆者何時もの832x1,216)にする程度だろうか。
CFG Scaleが1 = Negative Prompt無しがFLUX.1の基本だ。
またDistilled CFG Scaleはデフォルトが3.5。小さくするとコントラストが浅く、大きくするとコントラストが高くなるが、許容範囲は2~4程度となる。
他の項目は説明が結構難しいのと、FLUX.1 [dev] fp8を使っている限りあまり関係無いので、当面はこの設定で遊んで欲しい。
LoRAに関しては Civitai などで山盛り出ているので、
Forgeをインストールしたフォルダ/webui/models/Lora
へ入れ、AUTOMATIC1111同様の操作で指定/生成できる。
Checkpointに関しては、Trained版、Merge版共に、実写系はまだベースモデルの[dev]を超えたものは無い感じだ。
■もっと手軽にFLUX.1で生成してみたい
ここまでは簡単に出来ると言っても、それなりのCPUとGPUが無いとどうにもならない。
では「該当するPC持ってないけどFLUX.1使ってみたい!」と言う人はどうすれば?いくつかあるのだが2つご紹介したい。
XのGrok-2を使う(Premium。980円/月)。但し、1,024x768固定、NSFWフィルタは水着/下着まではOK
krea.aiにアカウントを作り無料枠(3分CPUタイム/日)。832x1,248など1MPの解像度が使用出来、縦横比も変更可能、NSFWフィルタは特に無し
XはGrok-2でFLUX.1を採用し、1,024x768固定ながら画像生成が可能になった。加えてNSFWフィルタも商用サービスとしては緩い。
PremiumだとGrok-2のLLM、文字数制限の緩和、投稿1時間以内編集可能、旧TweetDeck(現X Pro)使用可能など他にも利点があるので、980円/月なら悪く無い選択だ。
krea.aiはアカウントを作れば無料枠があり、3分CPUタイム/日は、操作した時間ではなく実際演算した時間。
1回の生成でBatch 4(1度に4枚生成)になっており、キュー待ちで生成が始まるまでは時間がかかることもあるが、生成が始まると10秒たらずで4枚出力する。
3分=180秒なので、これだと18x4=72枚程度は生成可能だ。またXとは違い1MP作動で加えて縦横比も指定可能、NSFWフィルタは(調べた限り)無し…と、お試し程度なら十分以上。お勧めのサイトだ。
(が、一定期間?枚数?過ぎるとFreeプランは終わるっぽい。残念)。
LoRAやControlNetなどは使えないものの、XがすでにPremiumなら即試せるし、無い場合はkrea.aiを使う…と言う感じだろうか。
いずれにしてもこれでFLUX.1にハマると、後は沼が待っている(笑)。
■今回締めのグラビア
今回の締めのグラビアは、前回同様、FLUX.1 [dev] fp8版を使って2MPで生成している(扉の写真も同様)。もう直ぐ9月であっと言う間に夏も終わり。最後の最後に夏っぽいのを作ってみた。
と言っても実はこれ、先日行われたセミナーの案内で使ったヘッダー画像Promptの縦位置バージョンだったりする。
さて9月は何が飛び出すか!?そろそろSD 3 Medium改良版も出てきて欲しいところ。また新型ForgeのControlNet対応は結局どうなるのか?この辺りも面白そうだ。
『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧