生成AIグラビアをグラビアカメラマンが作るとどうなる？第42回：ちょっと変わった生成AI画像、Google WhiskとFlux Sigma Vision Alpha1（西川和久）

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

Google Whisk

今回は簡単なのと難しいのと両極端を2つご紹介する。まずGoogle Whisk。つい最近始まったばかりのサービスで特徴は生成AI画像初心者でも簡単にイメージ通り作れる……というところだろうか。

人物、背景、スタイル、この3つの画像をセットすると、これらをミックスした画像をImagen 3を使い生成する。元々Imagen 3は、商用サービスの中でもクオリティが高く、出力は結構な仕上がり具合となる。

画像の向きは、横位置（1408x768）、正方形（1024x1024)、縦位置（768x1408）。横位置と縦位置はスマホに合わせたのか約16:9。流石に写真としては長過ぎるので2:3系も欲しいところ。

一見img2imgでミックスしてるのか？と思うが、実は各画像からPromptを生成し、混ぜてつじつまが合うよう、1つのPromptにしている。従って人物の顔までは似ない。

また該当する画像を持ち合わせていない時は直接Promptを書くことも出来る。但し現状、日本語はほとんど通らず英語にしなければならない。が、そもそもこれが出来るなら、このサービスは使わないよね！という話もある（笑）。

Google Whiskで人物/実写、背景/実写、スタイル/Prompt: cherry blossoms を指定
それらしい画像は出るには出るが、人物が日本人でなはい

実際使った例を見てみたい。確かに女性、カフェのテラス、桜…うまくミックスした画像が出来上がる。但し人物は日本人ではない。？っと思い、生成されたPromptの冒頭を見ると

Close-up shot of a young woman with shoulder-length dark brown hair styled with bangs that partially cover her forehead.

になっている。なるほど Japanese が抜けている分けだ。Japaneseを追加して出来た結果が以下の通り。日本人に変わっているのが分かる。

PromptにJapaneseが無いのでJapaneseを追加
人物の画像が変わり、それっぽい画像が出来上がる

とは言え、このWhisk、初心者をターゲットにしているのだから、ユーザーによる修正は期待できない。ログインしているリージョンを見て、自動的にJapaneseなどをPromptに入れた方がいいのでは？ > Google

さてこれからが本論。画像からPromptを得るのはVLLMが得意とするジャンルだ。従ってローカルPCで、Florence-2やJoy Caption、Qwen2.5-VLなどを動かし、人物、背景、スタイル、それぞれのPromptを生成、仕上げはLLMに「これらをうまく混ぜたPromptを作って！」で同じことが出来る。

ただVLLM/LLM環境を用意するのはVRAM容量の問題などもあり少し手間。そこでWhiskにPromptだけ作ってもらい、生成はローカルPCで……という手法が考えられる。実際試したところご覧の通り。

Whiskバージョン
FLUX.1 [dev] バージョン

興味深い結果となった。ただWhiskは他社同様、お堅い商用サービス。あまり過激な写真をセットしない方が無難だ（笑）。この点だけ注意すれば、この手法、なかなかGoodでは！？

Flux Sigma Vision Alpha1

Flux Sigma Vision Alpha1は、FLUX.1 [dev] の蒸留解除モデルだ。これまでも少し出ていたが試しても「お”！」っと思うものが無く、やっと登場した感がある。百聞は一見にしかず。4枚の画像を並べてみた(扉とグラビアも同様)。

FLUX.1 [dev] っぽさが消え、ほぼ実写に見えるのではないだろうか？もちろん一発で出たわけでは無く、それなりにガチャった結果ではあるのだが…。

Workflowは以下の通り。通常版とTurbo版があり、前者はRTX 4090でも生成時間がかかるため後者をお勧めする。

Flux Sigma Vision Alpha1 Workflow (Turbo版)

ぱっと見、複雑そうだが、中央から右側はDetail Daemon関連。しかもbypass（右上）して使っている。これは後でDetail Daemon Upscaleをするので二度は不要……と外したからだ。

Turbo部分のスピードアップは、前々回ご紹介したFLUX.1-Turbo-Alphaを使い13 stepsで処理。これからも分かるように、FLUX.1 [dev] のLoRAはそのまま利用可能。高速化は、Comfy-WaveSpeedやComfyUI-TeaCacheを使っても出来る。この時、stepsは30～40となる。

蒸留解除モデルはCFGを1より大きくするため生成時間が倍かかり、Negative Promptも必要。また外すと妙なのが出るため、気長にガチャるなど、扱い難い部分もあるが、この出力を見れば、納得ではないだろうか。

今回締めのグラビア

今回締めのグラビアは上記の通りFlux Sigma Vision Alpha1を使い、後でDetail Daemon Upscaleし、掲載解像度まであげている（扉も同様）。

扉を温泉にしてしまったので、こちらはちょっと気が早が春っぽい絵にしてみた。3月1本目の原稿が載る頃には、そこそこ暖かくなっているかも知れない…。で、RTX 5090は何処へ行った！？（笑）。

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

生成AIグラビアをグラビアカメラマンが作るとどうなる？第42回：ちょっと変わった生成AI画像、Google WhiskとFlux Sigma Vision Alpha1（西川和久）

西川和久

特集

Google Whisk

Flux Sigma Vision Alpha1

今回締めのグラビア

西川和久

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

【5月20日開催】AIグラビアからヴァイブコーディングまで、生成AIの最新動向を解説するテクノエッジ主催イベント

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

【アリエクの賢い使い方ガイド】期間限定セールまとめ。先着順クーポン・プロモコードあり

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

西川和久

特集

Google Whisk

Flux Sigma Vision Alpha1

今回締めのグラビア

SHARE THE STORY この記事をみんなにシェア

西川和久

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中