井上陽水の歌ではありませんが、夢の中へ行ってみたいとはいつも考えています。
今朝、妻と夢の中で会話をしました。
夢の中でも妻との会話は、メンバー2人だけのマストドンサーバに会話形式で記録するようにしています。今朝の会話はこんなふうに残しています。
今回の夢は、珍しくその前後の様子もある程度覚えています。
AIを使えばその辺りも再現できるかもしれません。そう考えて、試してみることにしました。
記憶にある最初の場面は、二人が住んでいるマンション。3つの入り口があり、その左端に蕎麦屋がテナントとして入っています。
これをAIに生成してもらいましょう。
Claudeに、イメージに近い画像をMidjourneyで生成するためのプロンプトを考えてもらいます。
「マンションに3つの入り口があって、その左端には蕎麦屋がある。そのイメージをMidjourneyで作って」
Claudeには画像生成機能はありませんが、簡単な図を示して、それが正しいか聞いてきます。
最初の図は間違っていましたが、より正しい図になるように指摘すると、修正してくれました。
この図を再現できるようなプロンプト「A modern Japanese apartment building exterior, street level view. The building has three entrances on the first floor. The leftmost entrance is occupied by a traditional Japanese soba restaurant with a blue noren curtain hanging. Clean concrete facade, residential windows above. Daytime, clear lighting. Photorealistic style」でMidjourneyを使い生成。
一番近いのは右下のイメージですが、蕎麦屋の位置がマンションの左端ではなく、右端になっています。
これは、ダウンロードして、左右反転させました。
うん。こうしてみると、二人で行ったことのある近所の蕎麦屋がこんな感じでした。この蕎麦屋に入っていきましょう。
Runway Gen-3 Alpha Turboに、「walking into the Japanese soba noodle small restaurant」というプロンプトで店の中に入っていく動画を作ってもらいます。
蕎麦屋に入ると、右側のテーブル席に妻がいました。
これは、妻の写真から学習したFLUX.1 [dev]のLoRAを使い、できるだけ再現してみます。
プロンプトは再びClaudeに任せて、キーワードをTorichanに変更してFLUX.1で生成。
すると、畳の上にテーブルがある奇妙な蕎麦屋になったので、プロンプトを修正させます。
「Interior of a modern Japanese soba restaurant, view of back corner seating. A beautiful Japanese woman in an elegant furisode kimono sitting gracefully at a western-style dining table with chairs. Hardwood flooring, traditional Japanese interior with wooden beams and shoji screens. Natural lighting from window, contemporary dining furniture while maintaining traditional Japanese aesthetics. Photorealistic style, cinematic composition, shallow depth of field」というプロンプトをベースに再び生成。
22回生成すると、夢で見た妻に近い画像が出てきました。
だいぶ夢で見た情景に近づいてきました。これをRunwayで動かしてみましょう。
ここで、ぼくが話しかけて、会話をするわけです。夢の中で。
ぼくが話しかけると、妻が答える場面。ここはHeyGenでその場面のアバターを生成し、妻の声を学習させたAIボイスで再現してもらいます。
プロンプトは「Avatar is wearing an elegant Japanese kimono, sitting in Japanese restaurant. Background is wall」。画像はいい感じのが生成されました。HeyGenのファインチューニングはとても再現度が高くて、普通に静止画生成としてつかたいくらいです。ただ、静止画のダウンロードはできなくて、拡大表示にして画面キャプチャしているのです。
妻のセリフは「もう頼んであるよ。信州ごまだれ蕎麦。楽しみなんだ!」。これを、HeyGenのカスタムボイスで喋ってもらい、リップシンクします。
と、やってみたのですが、今はHeyGenの待ち時間が非常に長くて、1時間経っても生成されません。ならば、短い音声なので、人物画像だけ使って、Runwayにリップシンクしてもらいましょう。
音声は、妻の声を学習させたTTSソフトのStyle-Bert-VITS2で生成。
Runwayで生成した動画でリップシンクします。
斜め上の方を見る仕草が妻っぽいです。
これらをつなぎ合わせて動画にします。
やはりBGMも欲しいので、歌詞を考えて、Suno v4に作ってもらいました。妻のペルソナで。
さらにVocoflexに声を置き換えて、Final Cut Proで動画を合わせます
これで、今朝見た夢の映像・音声化ができました。
なんか、信州ごまだれ蕎麦のCMみたいになっちゃいましたが、これまでの目標の一つとしていた、「夢を再現する」のがAIで可能となりました。
服や髪型、店の様子が場面場面で違っているのは、夢だからと納得もできますし。
さて、歩いて20分くらいの近所に信州ごまだれそばを出しているお店を見つけたので、これから食べに行ってきます。
今日は、二人で建てた家のローン完済日でもあります。その記念に夢を見させてくれたのかもしれません。
追記:信州ごまだれ蕎麦、目的の蕎麦屋に入ってオーダーしようとして店主に聞いたらない、という。よく見たらお店が違ってて、目的の店は数軒先でした。そんな近くに2件も蕎麦屋があるなんて!
というわけで、信州ごまだれ蕎麦はまた別の機会に行きます。いやー、リアルな生活は難しいですね。