Xに搭載されているLLM(大規模言語モデル)チャットAIのGrok(現在はGrok 3 beta)に、Edit Imageという画像編集機能が追加されました。Grokの単体アプリでも同様に使えます。
写真やイラストなどの画像をアップロードし、プロンプトで加工の指示を出せるという機能で、ChatGPT 4oで実装されているチャットでインタラクティブに操作できる画像生成に近いものです。
「新しい画像モデルを使って、あなたの画像のスタイルや、背景、登場人物などを編集します」と説明しています。

試してみたところ、ChatGPT 4oよりも優れている部分も多いので、その機能の一部を実際に試して紹介します。
Midjourneyで生成した人物画像をアップロードすると、
Change to a cosmic background
Reimagine this picture as if it were taken in the 15th century
アニメのワンシーンに飛び込む
Transform this image into a vibrant watercolor painting
というプロンプトが提案されました。

「アニメのワンシーンに飛び込む」を選択すると、「Turn this image into a scene from an anime. Reference anime-styles from studios like, but not limited to, Studio Ghibli, Madhouse, and MAPPA.」というプロンプトに変換され、日本のアニメスタイルの画像が2パターン生成されました。

右側の絵は指の数がおかしかったりしますが、ジブリ、マッドハウス、マッパに限定しない日本のアニメスタイルという指示に従っています。
画像を選んでさらに編集を指示することもできます。


次に、白黒写真をカラーにできるかやってみました。
以前、Photoshopのカラー化機能で試してみましたが、なかなか自然な仕上がりにはならなかった古い写真です。
左が1976年撮影のオリジナルで、それをGrok 3でカラー化したものが中央。それをReminiで高解像度化してiPhoneで色を最適化したものが一番右になります。かなり自然な仕上がりになったと思います。
さらにKLINGで動きと音もつけると、なかなかリアルに蘇ってきます。
では、別のモノクロ写真を。こちらは20代後半の写真ですが、ChatGPT 4oではコンテンツポリシー違反として拒否されます。

Grok 3ではカラー化できました。これも同様に左からオリジナル、Grok 3加工、Remini + 写真アプリでの色調整の順です。自然な仕上がりになりました。
別の写真では、消しゴムマジック的な不要人物消去とカラー化を同時に処理できました。
プロンプトによる肌の色調整は、筆者の語彙ではちょっと難しく、なかなか反映されません。全てをGrokに任せるのではなく、素直にPhotoshopなどのフォトレタッチソフトを使った方が良さそうです。餅は餅屋ということで。
ChatGPT 4oにはコンテンツポリシーの制限がきつく(Geminiに比べれば相当マシですが)、人物の場合には顔が変わってしまう傾向にあるので、Grokのゆるさは活用していきたいところ。
下の画像は、左からオリジナル、Grok 3で横向きポーズを指定、ChatGPT 4oで横向きポーズを指定したものです。ChatGPTでは顔が変わっていることがわかります(顔が面長になる傾向あり)。一方、Grok 3の場合には顔の一貫性はあるのですが、ポーズが反映されにくい問題があります。例えば、横向きはOKですが、手を下ろすなどのプロンプト指示は反映されませんでした。
このように、ChatGPT 4oとGrok 3のプロンプト画像処理には一長一短あり、うまく使い分けてさらにPhotoshopなどを組み合わせると、クリエイティブの可能性は広がりそうです。