生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
Google AI Studio + Gemini 2.0 Flash (Image Generation) Experimental
数日前、オープンのGemma-3(Vision/画像入力対応)とほぼ同時に出たので少し混乱していたが、Gemini 2.0 Flash Experimental(こちらは非オープン)というマルチモーダルLLMが登場。これがちょっと類を見ない対応度なのでご紹介したい。できることは、
Promptから画像を生成
画像からPromptを生成(Vision/画像入力)
画像からPromptにそって画像生成
いかがだろうか? これまでLLMはせいぜい2のVision対応のみだったが、1と3もこなせる真のマルチモーダルLLMとなっている(1は他の生成AI画像と組み合わせるケースはあった)。
使い方は簡単! Google AI Studioへアクセスし、ModelをGemini 2.0 Flash (Image Generation) Experimental、Output formatをImage and textにするだけ。論より証拠。以下の画面キャプチャをご覧いただきたい。
techno-edgeのロゴ画像を考えてもらう指示
3パターン出てきた
1番目を使ったカフェのイメージ
1番目を使ったオフィスのイメージ
Promptは日本語でOK。あっと言う間にロゴを使ったイメージ写真が完成! 仮にロゴの画像があっても生成AI画像で最後の2枚を作るのは難しい。え”!?という感じだ。この他にも、
オフィスの写真に人を追加
平置きの服画像を人物に着せる
元画像から後ろ姿を得る
センシティブに引っかかり失敗
1.オフィスの写真に人を追加は少し光の具合が合わず、切り貼り感があるもの、うまくいくケースもある。
2.はいわゆるTry-onだ。もちろん人の画像と組み合わせるのもできそうだが、Promptに日本人と入れるだけでもセンシティブでひっかかり出ず、残念なところ。
3.は元画像の内容を変えるパターン。「後ろ姿作ってどうするの?」だが、動画生成の時、最後のフレームを指定できる場合、違和感無く振り返る動画を生成可能(後ろ向き→振り返る)。また筆者は試してないが、アニメ系だと線画にしたり線画から色を塗ったり、いろいろなことができるらしい。
ここまで全て出力は長辺が1024ピクセル。何に使うにしても少し足らず、あと一歩ほしいところ。
4.はよくあるPromptや出力結果がセンシティブに引っかかるケース。いろいろなサービスがある中、Googleが一番厳しい感じだ。これでNGっていったい何を見ているのやら。加えて、同じ日本人美女でもオフィスでは出てTry-onでは出ないなど、ロジックに一貫性がない。この辺り、担当者に小一時間説教したい気分(笑)。
他のサービスでもあった話だが、水着の美女ではNGなのに、ビーチで遊ぶ美女だと水着姿で出ると言うダブルスタンダード。ダメなら全てダメ、一部でも出すなら全部出すどちらかにすべきだろう。そうしないとユーザー側が何がNGか分からず困惑する。
少し小言を書いたものの(せっかくいいのを作っているのにもったいない)、いろいろ楽しめるサービスが登場したのは嬉しい限り。
Hailuo AIのimage-01
少し前、KLINGがKolors 1.5を搭載し、動画だけでなく、生成AI画像にも対応した話を書いた。
そして今月、動画生成サービスのHailuo AIがImage-01と言う謎のモデルを引っ提げ生成AI画像に対応。以下作例を8つ掲載するが、Kolors 1.5よりクオリティは高くFLUX.1 [dev]に迫る。

FLUX.1 [dev]とは違う絵作りで、ものによってはFLUX.1 [dev]よりいいのでは?と思えるものもある。が、指は相変わらず(笑)。
Hailuo AIは、フリーアカウントでも毎日100クレジットもらえ(持ち越しはなし)、画像は1枚1クレジット。つまり1日100枚生成できる。縦横比は21:9、16:9、4:3、1:1、3:4、9:16(3:2、2:3がないのは残念)。解像度はFLUX.1と同レベル。またPrompt枠の右下にPrompt Upscale ON/OFFのアイコンもある。
肝心のNSFWだが(笑)、今のところPromptのチェックはなく、出力した画像で見えていればNGという感じだ。それ以外は結構際どいのも出る。興味のある人は是非試して欲しい。
今回締めのグラビア
今回締めのグラビアは扉と共に上記のHailuo AI / Image-01を使い、掲載解像度の関係で、Detail Daemonを使い、1.58x Upscaleしている。何時ものFLUX.1 [dev]とは違うテイストでいい感じだ。考えてみれば、ローカルで1枚も画像を生成 (Upscale以外)せず記事を書くのは初めてかもしれない(笑)。

今回は、動画サービスから画像も生成可能へ、そしてLLMから画像生成/編集と、同じ生成AI画像でもちょっと面白いのをご紹介した。とはいえ、そろそろオープンで凄いのが出て欲しいところ。