最低1枚の元写真があれば、高品質本人画像をすぐに生成できる「PhotoMaker」を試したらお手軽すぎた（CloseBox）

人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国IT企業の名前が頻繁に登場します。

EC大手のアリババ（Alibaba）、ゲーム大手のテンセント（Tencent）、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。

Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

https://www.techno-edge.net/article/2024/01/15/2620.html続きを読む »

そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。

これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきました。そのプロセスが不要になるということです。

PhotoMakerは、簡単に使えるデモページがHugging Faceに用意されているので、まずそこで試すことができます。

参照したい人物写真・画像を数枚（1枚でも可）用意し、それを左の枠にドラッグ＆ドロップ。プロンプトに「A photo of a girl img」などと書き込みSubmitボタンを押せばそれでOK。

スタイルで「Photographic」（何も指定しないとこれが適用される）「Cinematic」などを指定すると、さらに細かいプロンプトが自動的に追加されていい感じのフォトジェニック画像に仕上げてくれます。この辺はFooocusみたいな、余計な情報をうまく隠蔽するやり方ですね。

妻の写真を6枚使って試してみましたが、たしかにファインチューニングの過程をすっ飛ばして、それなりの本人性を保った人物画像が生成されます。少し癖は感じますが、場合によってはStable DiffusionベースのPhotoBoothを超えているかもしれません。

▲元になる顔写真は6枚を使用した

これで生成した画像がこちらです。

元写真が1枚だけのものはこちら。

▲元写真

▲1枚の写真から生成した画像

本人性は薄れますが、それでもある程度の一貫性は維持しています。

これまで試してきたPhotoBoothベースのファインチューニングと比べて、本人の骨格的な特徴がより強く出せている気がします。

最近のStable Diffusion系の推論時間短縮技術を考えるとおそろしく時間がかかりますが、PhotoBoothやLoRAによるファインチューニングが不要という、それを補う大きなメリットがあります。人気のWeb UIプラットフォームであるComfyUIへの実装なども進んでいるようですし、PhotoMakerを主軸とした新たなWeb UIが登場してくるかもしれません。

亡くなった親族の写真をAIで生成したいのだけど、といった要望が筆者のもとには数多く寄せられてきます。現時点である程度の品質を（親族の方をがっかりさせないくらいの）担保するためにはそれなりの枚数の、同じくらいの時期の顔写真が必要です。「あっても1、2枚なんですよね」と残念がる声も多く聞きます。

筆者の場合には結婚前後の時期にそうした写真がある程度の枚数揃っていたおかげで、約20枚の写真によるPhotoBoothファインチューニングが可能だったわけですが、それはなかなか高いハードルです。

PhotoMakerであれば、少なくとも1枚から数枚の写真があればかなりの本人性を保った画像の生成がプロンプトベースで可能なので、Hugging FaceデモでGPUガチャを引く（人気のためなかなか当たらずにタイムアウトエラーになる）よりもっと気軽に使えるようになったらぜひお勧めしておきたいです。

追記：筆者が生成しているのは20代の妻の写真ばかりじゃねーかという声があったのですが、PhotoMakerならば1枚の写真からも生成可能ということで、試してみました。49歳のときの妻の写真を元に生成した画像です。この時期はなかなか良い写真がなかったので（あってもPhotoBoothの学習には足りない）、わずかな参照写真で生成できるのはありがたいことです。