生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
オープンで高性能のHiDream-I1 (サービス利用編)
第44、45回はオープンではなく、各サービスに搭載された新しいモデルをご紹介した(その後、Midjourney V7も発表されている)。どれも高性能なのだが、サービス固有の検閲やLoRA、ControlNetが使えない、もちろんお金がかかる(笑)など、+αを楽しむにはいろいろ制限がある。
次々出て来る高性能モデルが非オープンだと「今年はFLUX.1 [dev]を超えるものはオープンでは出ないかも……」っと思い出した矢先の4月9日、HiDream-I1がオープンで登場した。ライセンスはMITで商用利用も含めOK(但し、FLUX.1用のvaeやMeta-Llama-3.1-8B-Instructが含まれているので、この部分は各のライセンスに基づく)。
HiDream-I1はFull、Dev、Fastと3種類あり、DevとFastは蒸留版だ。GitHubにデモ用のコードが載っているのでインストールしてもいいのだが、デモサイトやHiDream-I1を使ったサービス、vivago.ai (本家。動画やTry-onにも対応)もあったため、まず試してみることにした。
一番簡単なのはアカウント不要のデモサイト。過去Promptから怪しげな(笑)ワードだけ外して出した結果が以下の通り。Devで生成したものとなる。続いてサービスの vivago.ai。アカウントさえ作ればFreeで試すことが可能。


ご覧のようにかなか行けそうだ!その後、recraft.ai も対応。vivago.ai と同様、Freeアカウントでも生成出来る(どちらも1枚/1クレジット)。recraft.ai は毎日100クレジット付くのに対して、本家の vivago.ai は100クレジット使い切るとしばらくそのまま。数日後ログインし直すと100クレジット付く感じだ。安定して遊ぶなら recraft.ai の方がいいかも知れない。

オープンで高性能のHiDream-I1(ComfyUI編)
サービスで試して良さそうだったので、ローカルでも…となったが、それがなかなか難しい。というのもDevだと26GB必要だから。上記したように、TextEncoderにMeta-Llama-3.1-8B-Instructをまんま使っており、これだけでも結構VRAMを消費する加えてclip_l、openclip、t5)。実質VRAM 32GBのRTX 5090でしか使えないのでは使えるユーザーも限られてしまう。
どうしたものか……と思っていたところにNF4(4Bit Quantized)に圧縮したHiDream-I1-nf4が登場し、これだと16GB程度で作動。WebUIを使ったデモが含まれるのでセットアップ……といろいろやっている最中にComfyUI用のWrapperがリリースされた。
以下、HiDream-I1-Dev-nf4とHiDream-I1-Devの作例を順に4枚ずつ掲載する。前者は先のWrapper、後者は recraft.ai を使って生成。
全体的にHiDream-I1-Dev-nf4の方が平面的だろうか?……と、この原稿を書いている最中に、LoRA対応やComfyUIネイティブ対応などのニュースが!試すとWrapperよりComfyUIネイティブの方がいろいろ安定しているので、ComfyUIネイティブでのWorkflowをご紹介したい。
以下、必要なcheckpointなどの一覧となる。なお、vaeはFLU.1 [dev]と同じものだ。
checkpoint (fast-fp8 | bf16, dev-fp8 | bf16, full-fp8 | fp16)
text_encoders
vae
VRAM容量が厳しい時はcheckpointをGGUF版にすればよい(dev | full)。Workflowは以下の通り。ModelとKSamplerの間にModelSamplingSD3 Nodeが入っている以外は普通の画像生成用Workfkowとなる。

この時、dev | fullでパラメータが異なるのは以下の通り。
cfg: 1 | 3.5
sampler: euler | uni_pc
shift: 6 | 3
※ ModelSamplingSD3
解像度はFLUX.1 [dev]と同じ。fullはcfgが1より大きいのでNegative Promptが有効になる。生成時間と使用VAM容量はRTX 4090を使ってdev-fp8で12.6秒/20GB、full-fp8で22.2秒/20GB。かなり重い処理だ。
今回締めのグラビア
今回締めのグラビアは扉と共に上記のHiDream-I1-Dev(recraft.ai)を使い、掲載解像度の関係で、Detail Daemon 1.58x Upscaleしている。絵的にFLUX.1 [dev]ほど硬調ではなく、どちらかといえばSD3.5Lに近く割と軟調。肌は超リアルではなく、少し盛った感じだろうか。(完全ではないものの)手も含め体が崩れ難いのも筆者的には好印象。気になるのは顔の面積が小さい時、FLUX.1 [dev]ほどしっかり出ないところ。いずれにしてもこのクラスがオープンで登場したのは嬉しい限り。

次回は続きでComfyUIネイティブを使い、dev-fp8とfull-fp8の比較などをしてみたい。本来今回すべきなのだろうが、書き終わって入稿直前にこれが出たため(リリース後、執筆時でまだ数時間しか経っていない)、作例も含め多くは試せていない状態だったりする(笑)。