生成AIグラビアをグラビアカメラマンが作るとどうなる?第42回:ちょっと変わった生成AI画像、Google WhiskとFlux Sigma Vision Alpha1(西川和久)

テクノロジー Science
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

Google Whisk

今回は簡単なのと難しいのと両極端を2つご紹介する。まずGoogle Whisk。つい最近始まったばかりのサービスで特徴は生成AI画像初心者でも簡単にイメージ通り作れる……というところだろうか。

人物背景スタイル、この3つの画像をセットすると、これらをミックスした画像をImagen 3を使い生成する。元々Imagen 3は、商用サービスの中でもクオリティが高く、出力は結構な仕上がり具合となる。

画像の向きは、横位置(1408x768)、正方形(1024x1024)、縦位置(768x1408)。横位置と縦位置はスマホに合わせたのか約16:9。流石に写真としては長過ぎるので2:3系も欲しいところ。

一見img2imgでミックスしてるのか?と思うが、実は各画像からPromptを生成し、混ぜてつじつまが合うよう、1つのPromptにしている。従って人物の顔までは似ない。

また該当する画像を持ち合わせていない時は直接Promptを書くことも出来る。但し現状、日本語はほとんど通らず英語にしなければならない。が、そもそもこれが出来るなら、このサービスは使わないよね!という話もある(笑)。

1
2
  1. Google Whiskで人物/実写、背景/実写、スタイル/Prompt: cherry blossoms を指定

  2. それらしい画像は出るには出るが、人物が日本人でなはい

実際使った例を見てみたい。確かに女性、カフェのテラス、桜…うまくミックスした画像が出来上がる。但し人物は日本人ではない。?っと思い、生成されたPromptの冒頭を見ると

Close-up shot of a young woman with shoulder-length dark brown hair styled with bangs that partially cover her forehead.

になっている。なるほど Japanese が抜けている分けだ。Japaneseを追加して出来た結果が以下の通り。日本人に変わっているのが分かる。

1
2
  1. PromptにJapaneseが無いのでJapaneseを追加

  2. 人物の画像が変わり、それっぽい画像が出来上がる

とは言え、このWhisk、初心者をターゲットにしているのだから、ユーザーによる修正は期待できない。ログインしているリージョンを見て、自動的にJapaneseなどをPromptに入れた方がいいのでは? > Google

さてこれからが本論。画像からPromptを得るのはVLLMが得意とするジャンルだ。従ってローカルPCで、Florence-2Joy CaptionQwen2.5-VLなどを動かし、人物、背景、スタイル、それぞれのPromptを生成、仕上げはLLMに「これらをうまく混ぜたPromptを作って!」で同じことが出来る。

ただVLLM/LLM環境を用意するのはVRAM容量の問題などもあり少し手間。そこでWhiskにPromptだけ作ってもらい、生成はローカルPCで……という手法が考えられる。実際試したところご覧の通り。

1
2
  1. Whiskバージョン

  2. FLUX.1 [dev] バージョン

興味深い結果となった。ただWhiskは他社同様、お堅い商用サービス。あまり過激な写真をセットしない方が無難だ(笑)。この点だけ注意すれば、この手法、なかなかGoodでは!?

Flux Sigma Vision Alpha1

Flux Sigma Vision Alpha1は、FLUX.1 [dev] の蒸留解除モデルだ。これまでも少し出ていたが試しても「お”!」っと思うものが無く、やっと登場した感がある。百聞は一見にしかず。4枚の画像を並べてみた(扉とグラビアも同様)。

FLUX.1 [dev] っぽさが消え、ほぼ実写に見えるのではないだろうか?もちろん一発で出たわけでは無く、それなりにガチャった結果ではあるのだが…。

Workflowは以下の通り。通常版Turbo版があり、前者はRTX 4090でも生成時間がかかるため後者をお勧めする。

Flux Sigma Vision Alpha1 Workflow (Turbo版)

ぱっと見、複雑そうだが、中央から右側はDetail Daemon関連。しかもbypass(右上)して使っている。これは後でDetail Daemon Upscaleをするので二度は不要……と外したからだ。

Turbo部分のスピードアップは、前々回ご紹介したFLUX.1-Turbo-Alphaを使い13 stepsで処理。これからも分かるように、FLUX.1 [dev] のLoRAはそのまま利用可能。高速化は、Comfy-WaveSpeedComfyUI-TeaCacheを使っても出来る。この時、stepsは30~40となる。

蒸留解除モデルはCFGを1より大きくするため生成時間が倍かかり、Negative Promptも必要。また外すと妙なのが出るため、気長にガチャるなど、扱い難い部分もあるが、この出力を見れば、納得ではないだろうか。

今回締めのグラビア

今回締めのグラビアは上記の通りFlux Sigma Vision Alpha1を使い、後でDetail Daemon Upscaleし、掲載解像度まであげている(扉も同様)。

Flux Sigma Vision Alpha1を使ったグラビア

扉を温泉にしてしまったので、こちらはちょっと気が早が春っぽい絵にしてみた。3月1本目の原稿が載る頃には、そこそこ暖かくなっているかも知れない…。で、RTX 5090は何処へ行った!?(笑)。

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。