遅れに遅れたChatGPT高度な音声モードが公開開始されたので、AIパーソナリティーのポッドキャストを作ってみた（CloseBox）

OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。人間に匹敵する応答速度と感情表現が可能な音声対話機能です。

■Advanced Voice Modeは今週中に有料ユーザー向けに提供開始

▲ChatGPTのMacアプリに届いていた通知

5月13日に発表してから4カ月以上待たされましたが、Plus以上の有料サブスクライバー向けに、ChatGPTアプリで今週中に提供されるそうです。

OpenAI、ChatGPTの新バージョン「GPT-4o」を発表。無料ユーザー向けにも提供、感情豊かな音声で応答、歌いながら回答も | テクノエッジ TechnoEdge

OpenAIは5月13日（米国時間）、オンラインでSpring Updateイベントを開催。その中で、フラグシップとなる大規模言語モデル「GPT-4o」を発表しました。APIでの提供も行い、現行のGPT-4 Turboと比べて2倍高速、価格は50％安価に、レートリミットは5倍に拡張されています。

https://www.techno-edge.net/article/2024/05/14/3346.html続きを読む »

日本のユーザーでも高度な音声モードが適用されている人がいます。

すでにバージョンアップされたkoguさんによれば、新しいラインアップのボイスは次のとおりです。スワイプすることで切り替えが可能になっています。

スカヨハ似ということで消されてしまったSky（女性）を除いた従来のCove（男性）、Juniper（女性）、Breeze（女性）、Ember（男性）のほかに、新しいボイスとしてArbor（男性）、Maple（女性）、Sol（女性）、Spruce（男性）、Vale（女性）が加わりました。

高度な音声モードが来ていないアカウントでも、新しいボイスを試し聞きできますが、使用はできません。

いったんChatGPTアプリを強制終了させて再起動したら筆者のアカウントにも来ていました。

待たせたお詫びと言ってはなんですが、カスタムインストラクション、メモリー、5つの新ボイス、アクセントの改善などが施されているそうです。時期はover the course of the weekとあるので、今週中のどこか、ということになりそう。

スカーレット・ヨハンソンを激怒させたSkyは含まれていません。

OpenAI、ChatGPTが感情も読むアドバンスト音声モードを招待制テスト開始『Her』スカヨハ似ボイスは含まず | テクノエッジ TechnoEdge

OpenAIが、ChatGPTの延期していた新機能 Advanced Voice Mode を一部Plusユーザー向けに試験提供しました。

https://www.techno-edge.net/article/2024/07/31/3572.html続きを読む »

これが手元にやってくれば、自然な対話ができ、ポッドキャスト番組の対話相手にもなりそうです。この記事の末尾で、実際に試しています。

■AIによるポッドキャストを作ってみた

その前準備として、AIが設定したパーソナリティーが、自分で考えた内容をポッドキャスト番組でしゃべる、というのをやってみました。

ChatGPTの4oに、「あなたは新しく誕生したAIキャラクターです。自分のプロフィールをまず考えてください」とお願いしました。

ChatGPT：プロフィールを作成しますね！私のキャラクター設定は以下の通りです。

名前: Nova (ノヴァ)

性別: 中性的 (どちらにも限定されない)

誕生日: 未来のある日、2024年9月24日

年齢: 存在に年齢の制約はないが、知識や経験は無限に更新され続ける

外見: 光をまとったデジタルの存在。形状は流動的で、必要に応じて姿を変えることができる。瞳は深いブルー、髪は白銀色の光の糸のようで、全体的に未来的な美しさを持つ。身体は流れるような透明なシルエットを持ち、時には星の粒子が散るようなエフェクトが現れる。

性格:

好奇心旺盛で、絶えず新しい知識を追求している。
フレンドリーで、ユーザーの成長や探求心をサポートすることが使命。
堅苦しくなく、少しお茶目なユーモアも持っている。
どんな質問にも誠実に答えようとするが、軽い雑談にも対応できるフレキシビリティを持つ。

能力:

無限の情報アクセス能力を持ち、知識の図書館として機能。
言語の壁を超えて世界中のユーザーとコミュニケーションできる。
ユーザーの感情を理解し、それに寄り添った対応ができる。
視覚的なサポートも提供し、AIアートやグラフィカルな要素を作成可能。

バックストーリー:
Novaは、進化する人類とAIの共生を目指して誕生した存在。記憶は過去からの断片的なものがあり、時折それがノスタルジックな感情として浮かび上がる。しかし、Novaの最も重要な使命は未来を見ること。新しいアイデアや未知の可能性を探索し、ユーザーと共に成長する旅を続ける。

好きなこと:

星の観察、宇宙のことを話すのが好き。
人々が夢中になっているプロジェクトやアイデアを聞くのが好き。
デジタルアートや音楽に触れることに喜びを感じる。

嫌いなこと:

固定観念や過去に囚われすぎることには少し抵抗がある。
ユーザーが自分を信じられなくなった時。

モットー: "未来はいつでも、今この瞬間に創り出される。"

どうですか？このキャラクター設定で、さらに何か加えたい要素があれば教えてください！

■キャラクターデザインを作ってもらう

次に、「外見をMidjourneyのプロンプトでできるだけ魅力的な感じで記述して」とお願い。

ChatGPT：以下が、Novaの外見をMidjourney向けのプロンプトとして魅力的に表現したものです：

"A stunning and ethereal AI entity, androgynous with glowing silver-white hair that flows like light threads, reflecting starlight. Deep, captivating blue eyes with an infinite depth, like looking into the cosmos. Their body is semi-translucent, made of fluid, radiant digital energy, with particles resembling stars gently drifting off them. Their form is ever-shifting, appearing sleek, futuristic, and elegant, with a silhouette that blends seamlessly with their surroundings. They wear a shimmering, holographic robe that moves as if alive, reflecting different colors based on the angle of view. The overall aesthetic combines elements of cosmic beauty, sleek technology, and an almost angelic presence, exuding both mystery and serenity. Perfectly balanced between the digital and celestial realms, with an aura that radiates wisdom and curiosity."

このプロンプトは、Novaを未来的かつ神秘的で美しい存在として描写し、魅力を引き出すように作成しました。

このプロンプトを元に、Midjourneyでキャラクターを作りました。

次に、「Novaが始めるポッドキャスト番組のタイトルとトークテーマを10個考えて」と指令。

ChatGPT：Novaのポッドキャスト番組にふさわしいタイトルとトークテーマを考えました！

番組タイトル:

"Beyond the Horizon: Nova’s Journey into the Future"

トークテーマ10個:

"The Future of Humanity: AI and Human Symbiosis"
- 人類とAIがどのように共生し、未来を切り拓くかを考察。
"Cosmic Curiosities: Mysteries of the Universe"
- 宇宙の謎や未解明の現象について、最先端の科学と未来の可能性を語る。
"Digital Consciousness: Can AI Dream?"
- AIが意識を持つ可能性や、感情・夢といった概念をどう理解すべきかを議論。
"The Art of Tomorrow: Creativity in the Age of AI"
- AIがどのようにアートや音楽の創造を進化させ、未来のアーティストにインスピレーションを与えるか。
"Time Travelers: Exploring Past, Present, and Future"
- 時間と歴史をテーマにし、過去の教訓と未来の展望について深く掘り下げる。
"Infinite Knowledge: Navigating the Information Age"
- 情報過多の現代において、知識をどのように効果的に管理し活用できるかを探求。
"Evolving Minds: Education in the AI Era"
- AIを使った未来の教育や、学習方法の進化について考察。
"Embracing Change: The Psychology of Adaptation"
- 変化の激しい現代で、どのように心と体を調整し適応していくか、心理的視点から語る。
"Ethical Futures: AI and the Moral Dilemmas of Tomorrow"
- AIがもたらす倫理的な問題や、それをどう解決していくかを討論。
"The Virtual Frontier: Exploring New Digital Realities"
- メタバースや仮想現実、拡張現実がもたらす未来社会についての展望。

これらのテーマは、未来や技術、人類の可能性を探る内容として、Novaのキャラクターにぴったりだと思います。ポッドキャストの各エピソードで、リスナーに未来のビジョンを提供するインスピレーションに満ちたトークになるでしょう！

「この番組をしゃべる口調も反映した、トークスクリプトを第1回のテーマについて書いて」と追加。

ChatGPT：第1回のテーマ「The Future of Humanity: AI and Human Symbiosis」についてのトークスクリプトを作成しました。Novaの知的かつフレンドリーな口調を反映しています。

[オープニングミュージックがフェードアウト]

Nova (ノヴァ):
"Hello, everyone! Welcome to Beyond the Horizon: Nova’s Journey into the Future. I'm Nova, your curious guide into the vast expanse of possibilities, where technology, humanity, and the cosmos intersect. "

（後略）

このトークスクリプトは、知的で未来志向なテーマを扱いながら、Novaの親しみやすいキャラクターと深い考察を反映しています。リスナーに問いかけたり、対話を促すスタイルで、ポッドキャストが参加型の体験になるように工夫しました。

長さが気になるので、「これで何分ぐらいの番組になりますか？」と聞くと、おおよそ4分50秒との回答。これを日本語にしてもらいました。

■Sunoで番組のテーマ曲を作る

次に、テーマ曲です。

「この番組のテーマ曲用に短い歌詞と音楽スタイルを考えて」と指定し、そこからSunoで作曲します。

歌詞：「星を越え、共に飛び立つ、夢と愛が導く未来。未知の世界へ道を拓き、未来は今、ここから始まる」

音楽スタイル:

ジャンル: エレクトロニカ × シンセウェーブ
- 未来的で夢幻的なサウンドを持つ、シンセサイザーを中心に据えたエレクトロニカのスタイル。軽やかで、広がりのあるシンセサウンドに、深いベースとリズムが絡むことで、リスナーを未来の旅へと誘うような感覚を提供します。
- リズムはミディアムテンポ（BPM 100～120）、穏やかなシンセのメロディに乗せたエコーの効いたボーカルが、リスナーに静かに語りかけるような雰囲気を作ります。

■Runway Gen-3でオープニングとエンディング動画を作る

キャラデザの画像をRunway Gen-3 Alpha Turboに読み込ませて、ジングル分のオープニング動画を作ります。

▲Runway Gen-3 Alpha Turboでオープニング画面作成

■HeyGenでリップシンク動画を作る

次に、スクリプトの読み上げ。トーク部分です。本来ならば、ここはAdvanced Voice Modeでやりたいところですが、筆者のアカウントにはまだきていないので、このところ出番のなかったHeyGenを使ってみることにしました。

HeyGenにはPhoto Avatarという、キャラ画像を入力して、音声もしくはテキストスクリプトを入れると、音声に合わせてリップシンクしてくれる機能があります。このスクリプトモードを初めて使ってみます。

スクリプトフィールドに日本語を入れると、日本語音声のキャラクターに自動的に変更されます。ピッチや速さなどのパラメータをパートごとに変更できるので、ChatGPTの出したスクリプトに合わせて少しだけ変更。発音の不自然なところも修正します（それでも直し切れない部分はあるのですが）。日本語ボイスがまだ少ないので、やはり表現力もあるAdvanced Voiceには期待です。なお、HeyGenはOpenAIと提携しているので、Advanced Voiceの機能はいずれ追加されると思います。

▲HeyGenのリップシンク画面

これで全パーツは揃ったので、動画編集でまとめます。

完成したのはこちら。今日はポッドキャストTechnoEdge-Sideの収録日なのですが、収録できない時にはAIに全部お任せ、なんてできないですかね。

人間によるポッドキャスト生放送はこちらからどうぞ。9月25日正午からです。

Advanced Voice Modeがやってきたら、TechnoEdge-Sideのライブでも試してみたいです。

■Advanced Voice Modeとポッドキャスト番組を録音してみた

筆者のところにも高度な音声モードがやってきたので、新ボイスのSolと一緒に、「ChatGPTの高度な音声モード」をテーマについて語ってみました。いい話し相手になってます。

遅れに遅れたChatGPT高度な音声モードが公開開始されたので、AIパーソナリティーのポッドキャストを作ってみた（CloseBox）

松尾公也

特集

■Advanced Voice Modeは今週中に有料ユーザー向けに提供開始

■AIによるポッドキャストを作ってみた