生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
Google Whisk
今回は簡単なのと難しいのと両極端を2つご紹介する。まずGoogle Whisk。つい最近始まったばかりのサービスで特徴は生成AI画像初心者でも簡単にイメージ通り作れる……というところだろうか。
人物、背景、スタイル、この3つの画像をセットすると、これらをミックスした画像をImagen 3を使い生成する。元々Imagen 3は、商用サービスの中でもクオリティが高く、出力は結構な仕上がり具合となる。
画像の向きは、横位置(1408x768)、正方形(1024x1024)、縦位置(768x1408)。横位置と縦位置はスマホに合わせたのか約16:9。流石に写真としては長過ぎるので2:3系も欲しいところ。
一見img2imgでミックスしてるのか?と思うが、実は各画像からPromptを生成し、混ぜてつじつまが合うよう、1つのPromptにしている。従って人物の顔までは似ない。
また該当する画像を持ち合わせていない時は直接Promptを書くことも出来る。但し現状、日本語はほとんど通らず英語にしなければならない。が、そもそもこれが出来るなら、このサービスは使わないよね!という話もある(笑)。
Google Whiskで人物/実写、背景/実写、スタイル/Prompt: cherry blossoms を指定
それらしい画像は出るには出るが、人物が日本人でなはい
実際使った例を見てみたい。確かに女性、カフェのテラス、桜…うまくミックスした画像が出来上がる。但し人物は日本人ではない。?っと思い、生成されたPromptの冒頭を見ると
Close-up shot of a young woman with shoulder-length dark brown hair styled with bangs that partially cover her forehead.
になっている。なるほど Japanese が抜けている分けだ。Japaneseを追加して出来た結果が以下の通り。日本人に変わっているのが分かる。
PromptにJapaneseが無いのでJapaneseを追加
人物の画像が変わり、それっぽい画像が出来上がる
とは言え、このWhisk、初心者をターゲットにしているのだから、ユーザーによる修正は期待できない。ログインしているリージョンを見て、自動的にJapaneseなどをPromptに入れた方がいいのでは? > Google
さてこれからが本論。画像からPromptを得るのはVLLMが得意とするジャンルだ。従ってローカルPCで、Florence-2やJoy Caption、Qwen2.5-VLなどを動かし、人物、背景、スタイル、それぞれのPromptを生成、仕上げはLLMに「これらをうまく混ぜたPromptを作って!」で同じことが出来る。
ただVLLM/LLM環境を用意するのはVRAM容量の問題などもあり少し手間。そこでWhiskにPromptだけ作ってもらい、生成はローカルPCで……という手法が考えられる。実際試したところご覧の通り。
Whiskバージョン
FLUX.1 [dev] バージョン
興味深い結果となった。ただWhiskは他社同様、お堅い商用サービス。あまり過激な写真をセットしない方が無難だ(笑)。この点だけ注意すれば、この手法、なかなかGoodでは!?
Flux Sigma Vision Alpha1
Flux Sigma Vision Alpha1は、FLUX.1 [dev] の蒸留解除モデルだ。これまでも少し出ていたが試しても「お”!」っと思うものが無く、やっと登場した感がある。百聞は一見にしかず。4枚の画像を並べてみた(扉とグラビアも同様)。
FLUX.1 [dev] っぽさが消え、ほぼ実写に見えるのではないだろうか?もちろん一発で出たわけでは無く、それなりにガチャった結果ではあるのだが…。
Workflowは以下の通り。通常版とTurbo版があり、前者はRTX 4090でも生成時間がかかるため後者をお勧めする。

ぱっと見、複雑そうだが、中央から右側はDetail Daemon関連。しかもbypass(右上)して使っている。これは後でDetail Daemon Upscaleをするので二度は不要……と外したからだ。
Turbo部分のスピードアップは、前々回ご紹介したFLUX.1-Turbo-Alphaを使い13 stepsで処理。これからも分かるように、FLUX.1 [dev] のLoRAはそのまま利用可能。高速化は、Comfy-WaveSpeedやComfyUI-TeaCacheを使っても出来る。この時、stepsは30~40となる。
蒸留解除モデルはCFGを1より大きくするため生成時間が倍かかり、Negative Promptも必要。また外すと妙なのが出るため、気長にガチャるなど、扱い難い部分もあるが、この出力を見れば、納得ではないだろうか。
今回締めのグラビア
今回締めのグラビアは上記の通りFlux Sigma Vision Alpha1を使い、後でDetail Daemon Upscaleし、掲載解像度まであげている(扉も同様)。

扉を温泉にしてしまったので、こちらはちょっと気が早が春っぽい絵にしてみた。3月1本目の原稿が載る頃には、そこそこ暖かくなっているかも知れない…。で、RTX 5090は何処へ行った!?(笑)。