生成AIグラビアをグラビアカメラマンが作るとどうなる？第30回：生成AI画像の本命がいきなり登場！？新型モデルFLUX.1 [dev]を使ってみる(西川和久)

テクノロジー AI

2024 Aug 19 16:48

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる？第30回：生成AI画像の本命がいきなり登場！？新型モデルFLUX.1 [dev]を使ってみる(西川和久)

現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第30回は、話題の新画像生成モデル FLUX. 1 の実力チェックと使い方TIPSについて。

『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』

8月21日開催・グラビアカメラマンが教える生成AIグラビア実践ワークショップ（第2期第5回)参加者募集中

■いきなりその日はやって来た！

連載27回ではSD3 Mediumの生成する画像に致命的な問題がある件について書いたが、執筆時点で未だ体の崩れなどを直した修正版は出ていない。「この夏もSDXLか…」と諦めていた8月1日、「Black Forest Labs」からいきなりFLUX.1 [pro][dev][schnell]、3つのモデルが登場した。

何の前触れもなく、そんなこと可能なのか？と思って調べると、どうやらStable Diffusionに関わった開発者たちが中心となった会社のようだ。これはある意味反則技だ(笑)。

生成AIグラビアをグラビアカメラマンが作るとどうなる？第28回：SD3 Mediumその後と、KolorsなどポストSD的なtxt2imgモデルを試す(西川和久) | テクノエッジ TechnoEdge

SD3 Mediumその後

https://www.techno-edge.net/article/2024/07/18/3542.html続きを読む »

3つのモデルの内[pro]のみAPI経由。[dev]と[schnell]は強力なGPUを搭載したローカルPC(もしくはクラウドGPU)で実行可能。これなら筆者の用途的に気になる肌色過多も問題なく生成できる。[dev]は20 steps、[schnell]は4 stepsで生成可能。丁度SDXLとSDXL Turbo的な関係となる。

[dev]のファイルはここ、[schnell]のファイルはここにあるのだが、checkpoint、t5、clip、vaeと合計4本のファイルが必要で且つ、t5とclipはSD3 Mediumと共通。あっちこっちからダウンロードして(しかも合計35GBを超える)設定するのが面倒。

リリースから2週間ちょっと経った今、4本のファイルを1本化した上で[dev]と[schnell]のマージ版、fp8版、NF4版、GGUF版(これのみ4本必要)などが配布されており、一本化に加え軽量化が行われている。今回はこの中から現時点で一番無難なfp8版を使って画像生成してみたい。

■FLUX.1 [dev] fp8版の実力は？

fp8版は4つ必要なファイルを1本化した上で、fp16からfp8へ変換したcheckpointだ(一本化していないfp8もあるので要注意！少し小さく11GB)。当初、fp8版とfp16版で色などが違っていたが(アプリ側の問題？)、現在は同じになっているので、わざわざ巨大なfp16版を使う必要も無いだろう。

まずFLUX.1 [dev] fp8で実際生成した画像を何点かご覧頂きたい。

1	2
3	4
5	6

夏、浴衣、花火！
夏、海！
カメラ女子
カフェ美女
渋めのグラビア！
砂浜でファッションショー！？

如何だろうか！？ちょっと驚きのクオリティではないだろうか？SDXLを初めて見た時も思ったが、今回ははるかに超え、もはや実写。いつも話題になる指問題もあるにはあるが、率は低くなっており、カメラ女子の様な画像も簡単に作れるようになった。っと言っても、持ち方、カメラ、指…っと三つの要素があるので、それなりにガチャる必要はある。

もう一つの特徴として、砂浜でファッションショー！？の様に、引きの構図でも顔や指などが解像度不足で崩れない。SD 1.5やSDXLではADetailerなどを使い、部分的にUpscale、力ずくで何とかしていたが、その必要は無くなった。

利点としては処理時間の短縮、そしてdenoiseによる顔が変わったりする副作用から逃れることができる。

FLUX.1、肝心の肌色過多に関しては基本非NSFWモデル、つまり露出については規制があるが、それなりに出る。公開用なら問題ないレベルだ。もっと出したい時(笑)は、civitaiに毎日NSFW対応LoRAが物凄い量出ているのでそれを使って欲しい。FiltersにFlux 1 S/1 Dがあるので探し易いだろう。

冒頭4 stepsで再生可能な[schnell]についても触れているが、もちろんfp8版はあり、[dev] fp8との比較は以下の通り。Promptなど設定はstep数20か4か以外は全く同じ。Seedだけ似た感じのが出る様、変えている。

FLUX.1 [dev] fp8
FLUX.1 [schnell] fp8

が、この似た様な感じと言うのが結構厳しい。これでも[schnell]は近いのが出る様、かなりガチャったのだが、結果はご覧の通り。ガチャっている最中気付いたのは、[schnell] の方が美人率が低い、構図が下手、顔の影が強い…こんな感じだろうか。いくら4 stepsで速く生成できると言っても、5枚以上ガチャる時間があったら、[dev]で一発で決めた方が結果効率が良い。

FLUX.1 [dev] fp8のファイルはここにあるので事前にダウンロードして欲しい(17.2GB)。

■120億パラメータを使いこなすには

FLUX.1 [dev]は120億パラメータ対応(SD3 Mediumで20億、Largeで80億)と、桁違いに大きい。

従ってPromptを忠実に再現可能なのだが、筆者の様に英語が苦手で、普段Photo of a japanese woman, 20 years old…的にタグっぽい感じで書いている程度では、このモデルの威力は発揮しにくい。

こんな時に使う手としてローカルでLLMを使い(もちろんChatGPTなど商用サービスでも良い)、例えば上記の「夏、海！」は、

「二十歳の日本人美女、夏、海、シースルーのミニドレス、遊ぶ　これでお願いします」
↓LLMの作ったPromptで生成
カモメが出たのでついでに「カモメは削除でお願いします。後は浮き輪を持ってください」
↓LLMの作ったPromptで生成
シースルーだと本連載に掲載できないので「シースルーを削除、ライトブルーのミニドレスへ変更してください」「ドレスを濡らしてください」

として、最終的に以下の様なPromptになり、そのまま使っている。

A gorgeous and carefree 20-year-old Japanese woman playing and laughing by the ocean's edge during the summer season, wearing a bright light blue mini dress that is slightly damp from the water, her long hair blowing gently in the sea breeze. She is holding a colorful inflatable ring and floating on top of the calm water, surrounded by warm sunlight and vibrant waves crashing against the shore in the background.

いい感じに再現していると思うがいかがだろうか？「夏、浴衣、花火！」も同様。使用したLLMは、Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf。これをLM Studio→Open WebUIで操作している。

ローカルでLLMを使う利点としてはやはり言葉での「肌色過多」(笑)。ChatGPTなど商用サービスになると、断られるケースがあるので、生成AI画像同様、ローカルにあった方が何かと都合がいい。

■FLUX.1に対応しつつある新型Forge

FLUX.1を扱うには執筆時点で、新型Forge、ComfyUI、SwarmUIなどバックエンドにComfyUIを使ったもので生成可能だ。ComfyUIを扱える人ならcivitaiも含めWorkflowが山盛り出ているので、今回はForge、そうAUTOMATIC1111の高速化版で名を馳せたあのForgeを使ってみたい。

llyasviel氏のstable-diffusion-webui-forge、通称Forgeは、今年2月に高速化を完了。以降は好みのものへ作り替えるため拡張機能などの互換性が損なわれる可能性があり、使い続けたい人は2月版をダウンロードする様にと氏からメッセージが出ていた。

その後、高速化が本家AUTOMATIC1111のversion 1.10.xへ取り込まれ、完全に使命を終えた形となっている。

そして最近またゴソゴソしていたのだが、Gradioを3から4へなど、古いライブラリ関係の入れ替え的なものだった。そこへ(事前に知ってか知らずか不明だが)タイミングよくFLUX.1が登場したので、氏のエンジンがかかってしまい、以降、ずっと対応をGitHubへcommitし続けている。

ただ現状、ControlNetはNG、LoRAは使用するCheckpointの種類(fp8/NF4/GGUF)によって効いたり効かなかったり…素の生成は可能であるが、まだまだ未完成の部分が多い。

■今回締めのグラビア

今回の締めのグラビアはFLUX.1 [dev] fp8を2MP出力したもの(扉も同様)。SDXLやSD3 Medium(Large/Ultraも)は1MP。つまり1:1は1,024x1,024、2:3は832x1,216、16:9は1,344x768となる。

対してFLUX.1は1MPに加え2MPにも対応しており、それぞれ順に1,408x1,408、1,152x1,728、1,920x1,088をUpsscale無しでいきなり出力可能だ。もちろんその分時間とリソースはかかるが(RTX 4090で30秒を超えVRAM 24GBでもギリギリ)、結果は上記した1MPサンプルの更に上を行く。

掲載したグラビアは、midjourney_whisper_flux_lora_v01を使い、ちょっと雰囲気を変えてみた。トリガーワードなどは無く、このLoRAを重み1.0で入れるだけでガラッと雰囲気が変わる。本連載では掲載できないが、Sexy系だと妙に色っぽい雰囲気が出るので、興味のある方は是非試して欲しい。

次回は続きで、新型Forgeをセットアップする手順、そして実際にFLUX.1 [dev] fp8を生成してみたい。今回掲載しなかったのは、とにかく毎日凄いcommit量で、git clone/pullするタイミングではうまく動かない可能性があるためだ。おそらく月末近くなれば安定し出すのではないだろうか！？

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

生成AIグラビアギャラリーを見る