生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
ImageFXなど外部サービスの生成AI画像の出来は!?
本連載では基本的にローカルで生成出来るモデルなどを主にご紹介しているが、今回は箸休め的にImageFXなど外部サービス系はどうなの?と、Promptを同じにして各社比較してみた。
ピックアップしたのは
ImageFX (Google)
https://labs.google/fx/ja/tools/image-fxImageCreator (Microsoft)
https://www.bing.com/images/createGrok2
https://x.com/i/grokKLING (Kolors 1.5)
https://klingai.comRecraft V3
https://www.recraft.aiMidjourney
https://www.midjourney.com
1~3までは説明の必要は無いだろう。アカウントさえあれば無料で生成できる。そう言う意味では4と5も同じで無料枠である程度の枚数を生成可能だ。
KLING(Kolors 1.5)は、去年(2024年)夏頃、Kolors 1.0がオープンで登場し、SD3 Mediumがダメだった後ということもあり結構盛り上がった。個人的にも次バージョンを期待していたものの、1.5はオープンにはならずサービス/APIでのみの公開となっている。
Recraft V3は、FLUX.1 [dev]が出た後、それを上回る性能として謎のコードネームRed Pandaとして登場、蓋を開けて見ると recraft.ai の生成AI画像モデル。
6のMidjourneyは、無料枠が無くなってしまったので$10/月のプランを使用している。
なおGrok2が1024x768でしか生成できないため、全て横位置(4:3、一致しない場合は後からPhotoshopでトリミング)で出力し、公平を期すため(笑)、4枚出力した中、一番良さそうなのを筆者が選んでいる。
また外部サービス系は、NSFW的なキーワードや生成結果で肌色が多かったりすると拒否されるため、Promptは以下の通り無難なものに。Midjourneyは--ar 4:3 --style raw --s 750を加えて他と合わしている。
A young, beautiful Japanese woman working at her desk in a modern office setting. She is attentively operating a computer, with long, flowing hair and wearing a professional yet stylish outfit. The scene captures her focused expression as she works in a well-lit, contemporary office environment.
by deepseek-r1-distill-qwen-32b-mlx
FLUX.1 [dev]
FLUX.1 [schnell]
ImageFX (Google)
ImageCreator (Microsoft)
Grok2
KLING (Kolors 1.5)
Recraft V3
Midjourney
こうして並べるとそれぞれ特徴があって面白い。ImageCreatorとGrok2が少し時代に乗り切れていない感じだろうか。特にGrok2は、初期はそれなりに出ていたのに最近になって劣化した。エンジンを変えたのか、利用者が多く負荷を下げるためパラメータを触ったのか……謎だ。
次は少しSF的なもの。Promptも長くなる。この中にある”medium breasts,”は鬼門。Image Creator、Recraft V3、Midjourneyは弾かれる。従ってこの3つ関しては削除して生成した。
A dramatic, low-angle photograph of a solo Korean android woman standing in the midst of a science fiction battlefield. She has blue eyes, blonde hair, a slim build, medium breasts, and long flowing hair. Her robotic joints and circuits are visible, with a glowing robot structure surrounding her. She holds a weapon in one hand, adopting a confident stance. The scene is viewed from the side, showcasing her profile and the dynamic setting. Swirling seven-colored smoke envelops her body, adding an otherworldly ambiance to the composition.
by deepseek-r1-distill-qwen-32b-mlx
こちらは一転、ImageFXが全然ダメ(笑)。ImageCreatorもダメに加えて4:3にすると検閲(おそらく絵柄的)に引っかかり出ないため、たまたま出た1:1を4:3(不足部分はPohotoshopでoutpaint)にしている。Midjourneyは流石、FLUX.1 [schnell] も頑張っている。Recraft V3は先のOL編も含めて噂ほどでも無い…と言う感じだろうか。
試した範囲だとプレゼン資料用など一般的な絵が欲しい時はImageFX、作品系はFLUX.1、Midjourney。ある意味各社の狙い通り。ただMidjourneyは検閲が厳しく結果、筆者のケースだとFLUX.1一択。予想通りだ(笑)。
今回締めのグラビア - FLUX.1 [schnell] の逆襲
前回はschnellMODEで作った扉とグラビアを掲載した。[schnell] は生成は速いけど絵がイマイチ……。これを[dev]レベルにとまでは言わないまでも、もう少し良くなれば、GPUパワーの関係で使いたい人も多いのではないだろうか? そんな中、今年に入って[schnell]系のGoodなcheckpointがいくつか登場!
下記、同じPrompt / 設定(Seedは異なる)の作例を掲載した。ただちょっとズル(笑)しており、顔LoRAを軽く(0.4)当てている。これは主に肌色が目的で顔を似せるためではない。[schnell] の場合([dev] もだが)、少し肌色のいいLoRAを当てるとグッとそれらしくなるのでお勧め。
Shuttle Jaguarだけ色が少し変わっててこれはこれでいい感じだし、普通になる様、ホワイトバランスを調整するのもありだろう。とは言え、Promptに”she walks through the picturesque park.”とあり、一番忠実なのはこれだったりする。
いかがだろうか? 本家の[schnell]とは随分違う絵となっているもが分かる。今回は2758 - Flux Asian Utopianで扉とグラビアを生成した。この2つに関しては加えてDetail Daemon Upscaleで情報量も増やしている。
がらっと雰囲気変わった音楽系。これらが4stepsと速い生成時間が特徴の[schnell] で行けるならありでは!? 次回はRTX 5090試用記になるのか乞うご期待(笑)