生成AIグラビアをグラビアカメラマンが作るとどうなる？第28回：SD3 Mediumその後と、KolorsなどポストSD的なtxt2imgモデルを試す(西川和久)

テクノロジー AI

2024 Jul 18 15:43

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる？第28回：SD3 Mediumその後と、KolorsなどポストSD的なtxt2imgモデルを試す(西川和久)

現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第28回は、Stable Diffusion 3 Mediumの方針転換と、Kolors など非SD系の新 txt2imgモデルについて。

『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』

SD3 Mediumその後

連載27回にSD3 Mediumは、ライセンス問題やクオリティ問題があり、失速している的なことを書いたが、7月5日に劇的な発表があった。ざっくり焦点は以下の2つ。

研究、非商用、商用のいずれの用途でも無料。年間収益が100万米ドルを超え、商用製品またはサービスでStability AIモデルを使用する場合のみ、有料のエンタープライズライセンスが必要
SD3 Medium はまだ開発中で、今後数週間以内に、大幅に改善されたバージョンをリリースする予定

筆者が指摘した部分が大きく変わった。改善版が実際出るまで何ともだが、各方面からの声が届いたのだろう。また交代したばかりの新CEOの鶴の一声かも知れない。どちらにしても良い話で今後に期待したいところだ。

色々出てきた非SD系txt2imgモデル

本家のSDがバタバタしている間に、SDでは無い他のtxt2imgモデルがいろいろ出てきた。以前からあるものとしてはMidjourneyもその一つ。出力される画像はかなりのハイクオリティで有償にも関わらず人気がある。オープンなものとしてはPixArt系があるだろうか。他にHunYuan DiT、直近ではKolorsとAuraFlowもある。

以下、同じPromptを使って生成したPixArt系(Sigma-XL-2-1024-MS)のファインチューンモデルとHunyuanDiT-v1.2のベースモデルとなる。

PixArt系のモデルDalcefo_Pixart.Sigma-Lucida-V0.5 Beta	PixArt系のWorkflow
HunyuanDiT-v1.2のベースをそのまま使用	HunyuanDiT-v1.2のWorkflow

Promptは以下の通り。

(best quality), masterpiece, photorealistic, portrait photo of a japanese woman, 20 years old, realistic skin, eye catch, medium breasts, off-shoulder t-shirt, at cafe

如何だろうか？少なくともSDXLと同レベル的な感じではないだろうか！？AuraFlowはv0.1と言うこともあり、人物はまだまだ(これ以外は結構出る)。今回は作例を見送った。完成度が上がったらご紹介したい。

Workflowは、PixArtはこれ、HunyuanDiTはこれを使っている。なお、PixArtのWorkflowはGitHubのままだとT5関連のファイルが約20GBほど必要となるのだが、ストレージ節約のためSD3 MediumのT5を共用出来るNodeに書き換えている。

お！っと思ったのはKolors。テキストエンコーダーにLLMを採用し、Promptには英語だけでなく中国語もOK。加えてLLMで中国語を理解できる関係で日本(的な漢字)によるPromptもかなり行ける。そして何より今回試した中では絵柄が一番良い♪以降、もう少し詳しくご紹介する。

Kolors

Kolorsは中国のKuaishou Technology (クワイショウ・テクノロジー/快手科技) が7月初旬にリリースしたtxt2imgの生成AI画像モデルだ。

特徴としては、テキストエンコーダにCLIPやT5ではなくChatGLM3を採用。Promptは英語と中国語の両方に対応する。ネットワークアーキテクチャはSDXLで用いられているU-Net。VAEはSDXLと共通…と、テキストエンコーダー以外は結構SDXLに似ている感じだ。

まず上記と同じPromptの結果と、もう一点作例を追加した。如何だろうか？結構いい感じの子が出てきた。Workflowはここに簡単なUpscaleを付けたものとなる(扉も同様)。

次はSDXLのU-NETと同じなので、SDXL用のControlNetやLoRAなども使用できる(LoRAに関してはエラー無く使えるもののその効果は別の話)。このWorkflowではControlNetのOpenPoseを使用。見れば分かると思うが、CannyとDepthもNodeがあり、必要に応じて繋ぎかえる感じとなる。WorkflowはこれをベースにControlNetなどを加えている。またつい先日、IP-Adapter-Plus(設定した画像内容をPromptとして使える機能)もリリースされ、いろいろな環境が整いつつある。

そして極め付け！扉はWorkflowのPromptが日本語だ。流石に英語圏より文化圏が近いのかそれらしい絵がサクッと出る。

川縁に座って夜空の花火を見上げる浴衣を着た二十歳の日本人美女の後ろ姿。フィルムカメラで撮った少し古い色調に。

川縁はどこに？と言う話もあるが(他のSeedでは出ている)、雰囲気が良かったのでこれにした。

実はHunyuanDiTも英語・中国語両対応でLLMの力を借り日本もOK。LLM Chatなどで小型モデルを試すと分かるが、日本語出力は無理でも入力だけは出来るものが結構多い。同様に、生成AI画像でも今後テキストエンコーダーにLLMを採用している場合は、Prompt=英語と言う固定概念を捨て(笑)、日本語が使える可能性があるので、まず試すことをお勧めしたい。

今回締めのグラビア

締めのグラビアは扉と真逆のド派手(笑)。これには理由があり、(Promptにもよるが)Kolorsは色に濁りがなく、SD3 Mediumに少し似て抜けが良い。筆者が気に入ったのもこの点だ。

基本色が濁るSDXLではいろいろ試したものの、この色や雰囲気は出なかった。SD 1.5やSDXLでAIっぽく見える理由の1つとしてこの色の濁りがあると思っている。今回掲載した画像だと、実写をプロモ用に少し盛った感じにした様に見えるのでは！？いずれにしてもSD以外でハイクオリティなリアル系が出て来るのは嬉しい限りだ。

以下、入稿後追記。