生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
年末ということで、生成AI画像の2024年をバックナンバー見つつ、ざっくりおさらいしてみたい。
1月~5月: SD 1.5とSDXLを中心にComfyUIの解説
まず1月から5月。
1月 Hand Refiner、ADetailer、ComfyUIのインストール方法
2月 ComfyUI環境整備、Stable Cascade、ProPost(後処理でアナログ写真風に)
3月 MacでComfyUI、ComfyUI応用編ControlNet
4月 API版SD3リリース、AUTOMATIC1111 v1.9
5月 IC-Light、ControlNet 852_a_clone_xl
ここまでは2023年の延長上で対象はSD 1.5とSDXL。またComfyUI関連が増えている。そういえばStable Cascadeもあったな……的な(笑)。SDXLの次か!?と期待したものの、結局ほとんど流行らなかった。
Hand Refiner
API版SD3
SD3も出るには出たがAPIのみ。ローカルで生成可能になるの待ち状態だ。IC-Lightは、作者のlllyasviel氏が現在改良版を開発中。
いずれにしてもここまでは既存技術の使いこなしがメインの話となっている。Hand RefinerやADetailerは、今となっては懐かしい話(FLUX.1は未だたまに手が変。ADetailerはアーキテクチャ的に不要)。
6月~7月: SD3 MediumとポストSDXL
6月はSD3 Mediumがリリースされた。API版のSD3がそれなりの出来だったので、コミュニティは一気に飛びついたのだが、ライセンスと完成度の問題で正直大コケ。流行ることは無なかった。
6月 SD3 Mediumリリース!(Part 1/Part 2)
7月 ポストStable Diffusion(PixArt、HunyuanDiT、Kolors)、便利なNode/Workflow集
SD3 Medium
Kolors
この残念な結果を受け、ポストSDXLとしていろいろ登場したのもこの時期だ。個人的にはKolorsがイチオシで、SDXL用のControlNetやLoRAがそのまま使え、IP-Adapter-Plusなども登場、急激に環境が整いつつあり、しかもPromptに日本語が(ある程度)使える…と、このまま行くのか!?と思ったほど。しかし8月にとんでもないのがいきなり登場。一気に生成AI画像の流れを変えてしまった。
余談になるが、現在ローカル生成に対応した高性能生成AI動画の一つにHunyuan Video(t2v、Text to Video)がある。これはHunyuanDiTの上に成り立っている技術のようだ。480pと720p/24fpsに対応。筆者も試しているがなかなか生っぽい動画が出来上がる。
8月~: FLUX.1一色
一気に流れを変えてしまったのは言うまでもなくFLUX.1 [dev]。SDXLまではいくら頑張っても”リアルっぽい絵”だったのだが、FLUX.1 [dev] は”ほぼリアルな実写”に。このインパクトは凄まじく、生成AI画像が次のステージに進んだ瞬間だ。まさかStable Diffusion以外の何かが本流になるとは誰も思ってなかったのではないだろうか!?
8月 FLUX.1 [dev]、FLUX.1 [dev] fp8
9月 架空ゲームショウ(動画特集)
10月 FLUX.1、FLUX 1.1 [pro]、AdvancedLivePortrait、SD3.5 Large (Turbo)
11月 SD3.5 Medium、Detail Daemon
12月 FLUX.1 Tools
11月にSD3の時予告していた改良版、SD3.5 Large、Large Turbo、Mediumと、3つリリースされたが、完成度ではFLUX.1 [dev] に及ばず、civitaiなどにもLoRAやCheckpointがほとんど載らず失速した感じがある。
FLUX.1 [dev]。デフォルトが硬調で顔の面積が小さくても崩れないのが特徴
SD3.5 Large。デフォルトで軟調なのが特徴
redditに”何故SD 3.5をチューニングしないの?”と言うスレッドが以前あったのだが、皆んな声を揃えて「FLUX.1 [dev] があるのにそんな面倒なこと、誰がするの?」との意見ばかりだった。
SD3.5は素性がいい(当たるとより実写っぽい)ので、チューニングすれば化けると思うのだが残念なところ。
以上、2024年の生成AI画像を簡単にまとめてみた。8月以前と以降でガラッと様変わりしたのがお分かりいただけるのではないだろうか。他にもSonaや各サービス系独自(Imagen 3、Grok 2、Recraft V3など)の生成AI画像がいくつか出ているものの、性能がイマイチだったり検閲があったりと、FLUX.1 [dev] を脅かすまでにはなっていない。
今回締めのグラビア
今回締めのグラビアは、FLUX.1 [dev] + Detail Deamon Upscaleと言う筆者最近お気に入りのパターン。扉の写真も含めクリスマスと(ちょっと中国っぽいが)正月を混ぜてみた(笑)。
こんなことが出来るのも生成AI画像の面白いところだったりする。来年はもう1ステップ進むのか、このままFLUX.1 [dev] 時代が続くのか……。今から楽しみだったりする。