最高峰の画像生成AI「FLUX.1」で顔LoRA学習（2ドル）したら、AI動画生成も捗った話（CloseBox）

テクノロジー AI

2024 Aug 27 13:32

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

最高峰の画像生成AI「FLUX.1」で顔LoRA学習（2ドル）したら、AI動画生成も捗った話（CloseBox）

西川和久さんのAIグラビアワークショップを担当しているおかげもあり、画像生成AIの最新情報に触れることができています。

なんといっても現在の画像生成トレンドはFLUX.1。これを自分の制作ワークフローに取り入れることができたのでご報告します。

・松尾公也 CloseBox 連載記事一覧 | テクノエッジ TechnoEdge

■テレビ出演時の制作環境はもう古い？

この連載では、妻の写真から学習した生成AI画像と、歌声を学習した生成AI音声によるミュージックビデオ作成手法について語ってきました。

8月23日朝に放映されたテレビ朝日「羽鳥慎一モーニングショー」では、事例の一つとして、「亡き妻と交流するための窓」として、筆者の自宅での制作作業が取り上げられました。その時点での最新情報をお伝えしたつもりです。

この時は、妻の本物の写真や、Stable Diffusion 1.5のBRA5をベースモデルとして妻の写真45枚をDream Boothで学習して生成した画像をRunway Gen-3 Alphaなどで動かしていました。

取材を受けたのは8月20日だったのですが、実はその後に、制作フローの大きな変更があったのです。このため、テレビで放映した情報は最新のものではなくなっていました（番組の主旨としてはそれで良かったのですが）。

その新しい要素というのは、FLUX.1でのLoRA導入です。LoRAはフルファインチューニングよりもコンパクトな環境で学習できる技術。プロンプトに変なタグを書き込まなくてはならないし、フルファインチューンができているのだから不要だと思っていました。

傷だらけのローラ
￥250
(価格・在庫状況は記事公開時点のものです)

Amazon

FLUX.1については、Xのプレミアムプランでチャットベースで使えるので試してみたことはあります。西川さんの連載でも取り上げられました。

XのチャットAI新バージョン「Grok 2 mini（beta）」の画像生成（実はFLUX.1）を使ってみた（CloseBox） | テクノエッジ TechnoEdge

イーロン・マスクが8月12日にほのめかしてた、Xと連動した生成AI「Grok」新バージョンGrok 2 mini（beta）の画像生成機能が、自分のアカウントでも使えるようになりました。

https://www.techno-edge.net/article/2024/08/14/3596.html続きを読む »

生成AIグラビアをグラビアカメラマンが作るとどうなる？第30回：生成AI画像の本命がいきなり登場！？新型モデルFLUX.1 [dev]を使ってみる(西川和久) | テクノエッジ TechnoEdge

その日はいきなりやって来た！

https://www.techno-edge.net/article/2024/08/19/3603.html続きを読む »

高性能の画像生成AIサービスとしてはMidjourneyもあることだし（従来のDiscordだけでなく、Web UIで手軽に利用可能になったし）、ローカルで動かしたいという強いニーズを感じてはいなかったのですが、このFLUX.1で人物のファインチューニングが可能だという話が出てきてから、使ってみたくなりました。

テレビ取材の翌日が西川さんのAIグラビアワークショップで、そのときにFLUX.1の実行環境やファインチューニングについて相談していたのですが、すでにいくつかのサービスで、LoRAならFLUX.1のファインチューニングができるという話を伺いました。

なお、このワークショップでは、参加者の個別の質問に西川さんが答えてくれるコーナーがあるので、行き詰まっているポイントなどがある場合には、西川さんの最先端の知見が役立つと思います。テクノエッジアルファの会員になると、参加費が無料になるほか、過去回も全て閲覧可能になるのでお得です（PR）。

話題の高性能AI「FLUX.1」実演も。「Stable Diffusion」の基本から最新技術まで学べる。グラビアカメラマンが教える、生成AIグラビア実践ワークショップ（第2期第5回）を8月21日開催。参加者募集します | テクノエッジ TechnoEdge

https://www.techno-edge.net/article/2024/08/15/3597.html続きを読む »

会員制コミュニティ『テクノエッジアルファ』第二期会員の募集を開始します | テクノエッジ TechnoEdge

お待たせしました。テクノエッジの有料会員制コミュニティ『テクノエッジアルファ』、第二期として会員募集を再開いたします。

https://www.techno-edge.net/article/2024/05/23/3394.html続きを読む »

■FLUX.1 [dev] 用のLoRAを作成してみた

その後、X上での西川さんと新清士さんのやり取りで見つけた、ReplicateのLoRA作成サービス「ostris / flux-dev-lora-trainer」が良さそうだったので、それを使うことにしました。

Replicateはすでに使っていたのと、ユーザーインタフェースがシンプルだったのでこれに決定。

▲Replicateで使えるFLUX.1 [dev] LoRA Trainer

学習させたい画像ファイルと、そのdescriptionを書いたテキストファイルを10～20枚用意してzipしてアップロードし、トリガーワードを決めるだけ。22分で学習が完了し、FLUX.1 [dev] に対応したLoRAができました。画像ファイルのdescriptionは自動でつけてくれるので、同じファイル名のテキストファイルがあればOK。

LoRA作成にかかった料金は1.99ドル。安すぎです。ちなみに料金はNVIDIA H100 GPUの使用時間で決まります。

作成したLoRAはファイルとしてダウンロードできますが、その場で推論（画像生成）することも可能。Stable Diffusion 1.5のファインチューニングと比べて、本人にかなり近い、ハズレのない成果が出ています。

モバイルからも簡単にアクセスできるので、とても便利。調子に乗って使っていたら、LoRA作成よりもお金を使っていました。

また、変なプロンプトは使っていないのに不適切な画像が生成される可能性があるとして、生成を拒否されることも頻繁にあります。やはりローカル実行環境を作らなければ。

▲ReplicateのFLUX.1 [dev] LoRAでそのまま生成した画像

■ローカルマシンにFLUX.1 [dev] の推論環境を作る

これも、西川さんの動向をウォッチして、画像生成AIのWeb UIの一つであるSwarmUIにしました。実はForgeやComfyUIも使ってはみたものの、必要なファイルなどがうまくはまらずに失敗。「SwarmUIを使って話題のモデル『Flux』を動かす方法」という記事を参考に、インストールしたらうまくいきいました。

ローカルマシンで使用するFLUX.1は[dev]か[schnell]のいずれかになるわけですが、クォリティを考えると[dev]でしょうという西川さんのお勧めに従い、[dev]にしました。その分、生成に時間はかかりますが、品質には納得です。なお、ローカルマシンのスペックは、Intel Core-i7 + GeForce RTX 4090です。

▲SwarmUIでFLUX.1 [dev] + LoRAを実行

ローカルマシンでの妻画像生成は、Stable Diffusion 1.5 BRA6ベースのDream Boothファインチューニングモデルを使っていたのですが、やはり当たり外れがあります。出てくるポーズや顔の向きがかなり限定的で、顔や髪の色も意図したものとは異なる問題がありました。これを改善しようと新たにDream Boothでのファインチューニングを試みようとしたのですが、最近のバージョンではライブラリのコンフリクトがあるらしく、うまく動作しません。

そのため、Memeplexで9枚ずつ生成してそこからチェリーピックする方針に切り替えたのですが、これもなかなか大変な作業です。一貫性のあるポートレート画像を選ぶのにはやはり苦労します。

その点、FLUX.1 + LoRAだと、かなりの確率で、人物の一貫性を持った画像が生成できます。生成時間は4090であってもそれなり（2分以上）かかるのですが、ヒット率が高いので、試行錯誤しなくて済みます。

さらに、FLUX.1ではパラメータの数が多いこともあり、自然言語に近い形でのプロンプト入力が可能。Midjourneyでの詳細にシーンを記述したプロンプトがそのまま通ります。これを使わない手はありません。

■新しいワークフローの誕生

筆者の場合、画像生成の先の、ミュージックビデオを作るのが目的です。人物一貫性のある画像を歌詞に従って作り出し、その画像から動画を生成し、できればリップシンクしたクリップを作る。それを編集して1つのビデオ作品とする、という流れです。

新しいワークフローはこうなりました。

Sunoで曲を作る
歌詞をVerse、Chorusごとに分割
分割した歌詞から想起できる画像のプロンプトをLLMに生成させる
プロンプトに妻LoRAのトリガーワードを加えて生成
画像をRunway Gen-3 Alpha Turboで10秒の動画にする
歌わせたい場合にはSunoのボーカルデータを10秒以内に分割してリップシンク
- Logic Pro 11に取り込みボーカルを分離、または、SunoのGet Stemsで分離
- ボーカルトラックを10秒以内のオーディオデータに分割
出来上がったクリップをCapCutなどに追加・編集

中でも便利なのは、シーンの詳細な記述が入った画像になるため、Runway上でのプロンプト入力がほぼ不要なことです。

リップシンクさせたいときには「a girl is talking quietly」などのプロンプトを追加しますが、画像自体が雄弁に動きをつけてくれる感じです。

FLUX.1 LoRAを使うメリットは他にもあります。指です。以前のモデルでは指の数、長さが破綻していることが多く、そのために何度も生成し直したり、指が隠れるようなポーズを指定する必要があったのですが、FLUX.1になってからは、そうした遠慮は不要となりました。もちろん指の数が少ない・位置がおかしいということもたまにありますが、ごく少数です。

そのおかげで、「指を突き出して歌う」といった、これまでは不可能だったシーンの生成もできるようになったのです。

▲画像生成AIが不得意だった「指」問題がほぼ解決している

Runwayに限らず、動画生成AIでは元画像が指を隠していてもいきなり髪をかきあげるといった動作をしてしまいがちです。さらに超長いネイルがついていたりとか、指の長さが不自然なものになってしまうことが多々あります。FLUX.1 + LoRAで指が最初から出ている場合にはそうした事故がほぼなくなり、おかげで作業効率が圧倒的に改善されました。