OpenAIがまたYouTubeライブで発表をしました。
今回のモデルはChatGPT 4oと、最新の4.5より古いのですが、その画像生成についての進展がテーマです。
OpenAIの画像生成モデルといえば、DALL-Eですが、従来のものとは少し違う様子。特に、文字列の指定を正確に反映してくれるところに特徴があるようです。
早速試してみました。ストーリーもののSFマンガの冒頭部分を作らせてみます。

まずネームを作ってきたので、これを描かせると……。

日本語ですがところどころおかしい。それでも気持ちは雰囲気は伝わりますね。続きを描かせてみましょう。

未来人なのか?ですかね。

左下のコマは意味不明なので描き直させると、

絵柄がガラリと変わって、人物も誰これ?
実用的とは言えませんが、それなりに面白く、遊べます。
ほのぼの系も結構いけます。「AI推進派と反AIの二人の少女の、ほのぼのしたすれ違い4コマ漫画を描いて」というプロンプトで生成された3コマ漫画。

正しい日本語のフォントにしてと指定すると、ある程度反映はしてくれました。

意味不明だし、キャラ変わってますけど。
インタラクティブなプロンプトのやり取りで画像生成ができるという点では、Google AI Studioで画像生成をするのと似ていますが、こちらの方がクリエイティブな自由度は高そうです。
■既存の手書き文字から画像生成できる?
では次に、生成AIが注目されてからずっと課題にしていたものができるかやってみます。
それは、手書き文字から、それに似た書体の文字列を作れるかどうか、というテーマです。
具体的には、妻が遺した手書き文字がかなりあるので、その手書きフォントができないか、というもの。ここ10年以上それができるサービスを調べているのですが、実用的なものはできていないようです。
例えば、カセットテープの曲名をこんな感じで手書き文字で残しています。




かなり特徴的な書き文字なので、それを反映させた文字にしたい。妻のブログやSNSのログがこの文字で表示されていれば、寄り添ってくれている感じを得られるのではないか、と。
1年ほど前に、LoRAで学習させた文字を反映させる実験をしていた人はいたのですが、その先には進んでいきませんでした。
そこで、このChatGPT 4oの画像認識・画像生成ならどうか、試してみました。
先ほどのカセットテープの手書き文字を認識させ、その文字セットを作らせます。
最初はブロック体で作ってきたのを、筆記体の方に修正させるとこんな感じに。


同一とまではいきませんが、雰囲気はかなり近づいています。
これで、台東区浅草橋に作った新事務所のロゴを作ってもらいました。ちなみに、この事務所はChatGPT deep researchで探して物件を絞り込むことで超狭狭物件を安く契約できました。

そのネームプレートに使うロゴ(とりちゃんフォント[AI])です。

同じことをGoogle AI StudioのGemini 2.0 Flash (Image Generation) Experimentalでやらせてみましたが、こちらは分析まではしてくれるのですが、直接ロゴの生成はできませんでした。
手書き文字はもっとちゃんとしたものがたくさん残っているので(交換日記とか手紙とか)、日本語の文字も含めたキャラクターセットができるといいなと考えています。
これがもっと早く実現していたら、作家の高橋源一郎さんのNHKラジオ番組に出演したときのネタにできていたのですが。
・【飛ぶ教室】松尾公也さん(Webメディア記者・AIクリエイター)
ところで、ChatGPT 4oの画像生成はプロンプトによるインタラクティブな指令を参照画像に対して与えられるので、1枚の写真から三面図を生成することもできます。つまり、立体化への手がかりとしては十分な素材が生成できるということです。


そのうち、直接STLデータ生成とかできるといいなあ。