生成AIグラビアをグラビアカメラマンが作るとどうなる?第46回:遂にオープンでFLUX.1 [dev]を超える!? HiDream-I1登場(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

オープンで高性能のHiDream-I1 (サービス利用編)

第44、45回はオープンではなく、各サービスに搭載された新しいモデルをご紹介した(その後、Midjourney V7も発表されている)。どれも高性能なのだが、サービス固有の検閲やLoRA、ControlNetが使えない、もちろんお金がかかる(笑)など、+αを楽しむにはいろいろ制限がある。



次々出て来る高性能モデルが非オープンだと「今年はFLUX.1 [dev]を超えるものはオープンでは出ないかも……」っと思い出した矢先の4月9日、HiDream-I1がオープンで登場した。ライセンスはMITで商用利用も含めOK(但し、FLUX.1用のvaeやMeta-Llama-3.1-8B-Instructが含まれているので、この部分は各のライセンスに基づく)。

HiDream-I1はFullDevFastと3種類あり、DevとFastは蒸留版だ。GitHubにデモ用のコードが載っているのでインストールしてもいいのだが、デモサイトHiDream-I1を使ったサービス、vivago.ai (本家。動画やTry-onにも対応)もあったため、まず試してみることにした。

一番簡単なのはアカウント不要のデモサイト。過去Promptから怪しげな(笑)ワードだけ外して出した結果が以下の通り。Devで生成したものとなる。続いてサービスの vivago.ai。アカウントさえ作ればFreeで試すことが可能。

デモサイトの画面
vivago.aiの画面

ご覧のようにかなか行けそうだ!その後、recraft.ai も対応。vivago.ai と同様、Freeアカウントでも生成出来る(どちらも1枚/1クレジット)。recraft.ai は毎日100クレジット付くのに対して、本家の vivago.ai は100クレジット使い切るとしばらくそのまま。数日後ログインし直すと100クレジット付く感じだ。安定して遊ぶなら recraft.ai の方がいいかも知れない。

recraft.aiの画面

オープンで高性能のHiDream-I1(ComfyUI編)

サービスで試して良さそうだったので、ローカルでも…となったが、それがなかなか難しい。というのもDevだと26GB必要だから。上記したように、TextEncoderにMeta-Llama-3.1-8B-Instructをまんま使っており、これだけでも結構VRAMを消費する加えてclip_l、openclip、t5)。実質VRAM 32GBのRTX 5090でしか使えないのでは使えるユーザーも限られてしまう。

どうしたものか……と思っていたところにNF4(4Bit Quantized)に圧縮したHiDream-I1-nf4が登場し、これだと16GB程度で作動。WebUIを使ったデモが含まれるのでセットアップ……といろいろやっている最中にComfyUI用のWrapperがリリースされた。

以下、HiDream-I1-Dev-nf4HiDream-I1-Devの作例を順に4枚ずつ掲載する。前者は先のWrapper、後者は recraft.ai を使って生成。

全体的にHiDream-I1-Dev-nf4の方が平面的だろうか?……と、この原稿を書いている最中に、LoRA対応ComfyUIネイティブ対応などのニュースが!試すとWrapperよりComfyUIネイティブの方がいろいろ安定しているので、ComfyUIネイティブでのWorkflowをご紹介したい。

以下、必要なcheckpointなどの一覧となる。なお、vaeはFLU.1 [dev]と同じものだ。

checkpoint (fast-fp8 | bf16, dev-fp8 | bf16, full-fp8 | fp16)
text_encoders
vae

VRAM容量が厳しい時はcheckpointをGGUF版にすればよい(dev | full)。Workflowは以下の通り。ModelKSamplerの間にModelSamplingSD3 Nodeが入っている以外は普通の画像生成用Workfkowとなる。

HiDream-I1 ComfyUIネイティブWorkflow

この時、dev | fullでパラメータが異なるのは以下の通り。

cfg: 1 | 3.5
sampler: euler | uni_pc
shift: 6 | 3
※ ModelSamplingSD3

解像度はFLUX.1 [dev]と同じ。fullはcfgが1より大きいのでNegative Promptが有効になる。生成時間と使用VAM容量RTX 4090を使ってdev-fp8で12.6秒/20GBfull-fp8で22.2秒/20GB。かなり重い処理だ。

今回締めのグラビア

今回締めのグラビアは扉と共に上記のHiDream-I1-Dev(recraft.ai)を使い、掲載解像度の関係で、Detail Daemon 1.58x Upscaleしている。絵的にFLUX.1 [dev]ほど硬調ではなく、どちらかといえばSD3.5Lに近く割と軟調。肌は超リアルではなく、少し盛った感じだろうか。(完全ではないものの)手も含め体が崩れ難いのも筆者的には好印象。気になるのは顔の面積が小さい時、FLUX.1 [dev]ほどしっかり出ないところ。いずれにしてもこのクラスがオープンで登場したのは嬉しい限り。

HiDream-I1-Devを使ったグラビア!

次回は続きでComfyUIネイティブを使い、dev-fp8とfull-fp8の比較などをしてみたい。本来今回すべきなのだろうが、書き終わって入稿直前にこれが出たため(リリース後、執筆時でまだ数時間しか経っていない)、作例も含め多くは試せていない状態だったりする(笑)。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。