音楽・動画AIの進化が加速した2024年の生成AIを記事とビデオとポッドキャストで振り返る（CloseBox）

今年2024年は生成AIの、特に音楽と動画において画期的な進歩が継続して行われた年でした。この連載でもずっと追いかけてきたテーマでもあるので、特に音楽・動画生成AIについて、自分が作った動画で振り返ります。

2023年の生成AIを振り返った記事はこちら。

画像・音声・文書・作曲、すべてが生成AIに頼れるようになった2023年を自分の記事で振り返る（CloseBox） | テクノエッジ TechnoEdge

2023年（のちょっと前から）の生成AIの動きというか広がり、勢いを、自分の取り組みを中心にまとめてみました。

https://www.techno-edge.net/article/2023/12/29/2546.html続きを読む »

■2024年1月：台湾のAIアート展にAI作曲による生成AIオリジナル曲ミュージックビデオを展示

1月27日から5月12日まで、台北当代芸術館のAIアート展覧会「Hello Human!」に筆者の作品2つが展示されました。

一つは第一回AIアートグランプリを受賞した「Desperado」（The Eaglesのカバー曲）、もう一つは、「星埋める夜に」という、ChatGPTとAI作曲サービスのSunoを活用したオリジナル曲です。

まず妻の写真を学習したStable Diffusionモデルで星空を見ている画像を制作。その画像をChatGPTに読み取らせて作詞。その歌詞を元にSuno で作曲・演奏・歌唱。歌唱をRVC（妻の歌声を学習）に置き換え、といった工程。

ChatGPTのマルチモーダル機能で、画像から歌詞を考えて曲につなげるというプロセスができました。これは、現在のSunoモバイルアプリで、カメラで撮影してそのまま曲にするという機能につながっています。

アーティストのAIへの反発をどう考える？　台北当代芸術館のAIアート展覧会「Hello Human!」で、キュレーターにAIアートの課題を聞きました（CloseBox） | テクノエッジ TechnoEdge

台湾の台北当代芸術館（MoCA TAIPEI）で開催されているAIアート展覧会「你好，人類！Hello, Human!」にアーティストとして参加。この展示会のキュレータにAIとアートの関係について聞いてきました。

https://www.techno-edge.net/article/2024/01/29/2707.html続きを読む »

筆者の展示を見た人たちの反響はポジティブなものだったそうです。

■2024年2月：2分の曲を一気に作れるSuno v3登場。架空のバンドによる架空のコンセプトアルバムを数時間で制作し、商業配信も

Sunoがv3にバージョンアップし、2分までの曲を一気に作ることが可能になり、さらに伸ばすこともできることから、プログレッシブロックのアルバムが作れるのではないかと判断。The BeatlesのSgt. Peppers Lonely Hearts Club BandやPink FloydのThe Dark Side of the Moonを目指したコンセプトアルバムを数時間で作りました。これはプロによるマスタリングを経て、各種ストリーミングプラットフォームで販売されています。

コンセプトをChatGPTにゼロから考えさせ、それぞれの楽曲の歌詞や音楽スタイルも作らせ、作曲・演奏・歌唱はSuno。アルバムカバーもChatGPTが考え、それをMidjourneyで制作。バンドメンバーのプロフィール、メンバーのアーティスト写真、バンドによるインタビューなどもChatGPTが考えました。

音楽の作り方が決定的に変わる。架空のロックバンドのコンセプトアルバムを丸ごとAIで作れてしまいました（CloseBox） | テクノエッジ TechnoEdge

SunoがV3 Alphaになって作曲能力が想像を超えてきたので、ちょっと面白い試みをしてみました。架空のロックバンドによる架空のコンセプトアルバムを作ってみるというものです。

https://www.techno-edge.net/article/2024/02/27/2872.html続きを読む »

■2024年3月：大河ドラマ「光る君へ」スタート記念。枕草子ラップ

大河ドラマ「光る君へ」に触発されて作ったのが枕草子の冒頭「春は曙」のラップバージョン。ヒップホップが出てきた頃から構想していた「ようよう白くなりゆく」を「YOYO」でラップにしたいという夢が叶えられました。

ところで、最終回を見て思い出したのが、かつてのライバルだったスティーブ・ジョブズとビル・ゲイツが過去を懐かしく振り返るシーンでした。

「春はあけぼの、YOYO白くなりゆく」をSuno AI作曲でラップにしてみた。清少納言が現代に生きていたら枕草子をどう歌っただろう（CloseBox） | テクノエッジ TechnoEdge

NHK大河ドラマ「光る君に」を楽しんで視聴しています。紫式部と清少納言が初めて出会ったときのバチバチ感はスリリングでした。

https://www.techno-edge.net/article/2024/03/05/2913.html続きを読む »

■2024年4月：Sunoの強力なライバルUdio登場。超リアルなボーカルが衝撃的

「Sunoなんか霞んじゃうぜ」という前評判だったAI作曲サービスUdio（ユーディオ）が登場。たしかに生っぽいボーカルは今でも十分に通用します。ただ、一回で生成できる曲の長さが短く、癖も強いので総合的にはSunoに追いつくことができずにいる感じでしょうか。

Udioは日本語歌詞を当時は作れなかったので、ChatGPTを使いました。ビデオダウンロードもできたのでそのまま使用。

AI作曲サービスの新星「Udio」が誰でも利用可能に。Sunoを超えたか、試してみた（CloseBox） | テクノエッジ TechnoEdge

Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。

https://www.techno-edge.net/article/2024/04/11/3155.html続きを読む »

■2024年5月：数秒の音声があればその人の声でリアルタイム歌唱できるVocoflexを試す

AI歌唱合成ソフトSynthesizer Vで知られるDreamtonicsから、リアルタイムでボイチェンができる歌唱ソフトVocoflexが登場しました。そのベータユーザーとなったので、妻や自分の歌声を学習させてリアルタイム歌唱してみました。

その人の声になりきってリアルタイム歌唱できるAIボイチェン「Vocoflex」を使ってタイムトラベル体験した（CloseBox） | テクノエッジ TechnoEdge

10秒の歌声オーディオデータがあれば、本人そっくりのリアルタイム歌唱ができるという「Vocoflex」。ベータテスターの申し込みをしていたのですが、ついに試用できたので、そのファーストインプレッションをお届けします。

https://www.techno-edge.net/article/2024/04/28/3256.html続きを読む »

12月14日、妻が在籍していたバンドで、Vocoflexを使って筆者が歌唱することで、妻の歌声でリアルタイムでハーモニーをつけることに成功しました。

忘年会でオーバー60の人たちにAIボイチェンとAIミュージックビデオを披露した結果（CloseBox） | テクノエッジ TechnoEdge

先週の土曜日は、大学時代の軽音サークルの忘年会ライブがありました。そこで筆者も演奏したのですが、今年はAIリアルタイムボイチェンと、AIを使ったミュージックビデオを披露しました。

https://www.techno-edge.net/article/2024/12/16/3928.html続きを読む »

■2024年6月：Suno v3.5で4分の高品質WAV提供。Luma Dream MachineによるImage to VideoがSoraレベルに

バージョン3.5で2分間制限が最長4分に。延長時間も2分になりました。

Sunoは作詞機能が優れていて、キーワードを入れるだけで歌詞にして、それを曲にできます。それを使い、最大4分の曲をいくつも作ってみました。

Lyricsに「香り」「痺れる」といった身体性のキーワードを入れ、曲調はブルースで作った楽曲。ビデオ出力もSunoで。

この中の「痺れてる」という曲はボーカルも演奏も自分史上最高レベル。これが「痺れてる」というキーワードだけでできるとかすごすぎるだろう、と。そして、ボーカルスタイルは先ごろVOW WOWで復活した人見元基を思わせます。

この時点で、AI作曲は常人を超えたのだと思います。

6月はもう一つ、大きな動きがありました。Luma Dream Machineの登場です。

2月に発表されるも使えない状態が続いてたOpenAIのSoraのようなAI動画生成を、サブスクしていれば誰でも使えるようになりました。

Image to Video。写真や画像から動画を作成可能なDream Machineを使ったミュージックビデオが大きな反響を呼びました。その結果、テレビ朝日の取材を受け、こちらも大きな反響を呼びました。

・「亡き妻と交流するための窓」思い出が動き出す…生成AI最新技術　写真→動画が簡単に（テレビ朝日）

もうSoraは不要なのか。動画生成AIの新基準、Luma AI「Dream Machine」をサブスクしてわかった「ハリー・ポッターに出てくるような魔法」の使いこなし術（CloseBox） | テクノエッジ TechnoEdge

テキストプロンプトからリアルな動きのある映像を生成できる動画生成AISora、KLINGが使えずにヤキモキしていた人々が大挙して押し寄せた「Luma Dream Machine」。このサービスの有償プランに申し込んで使ってみたので、その使い方のコツをお伝えします。

https://www.techno-edge.net/article/2024/06/14/3468.html続きを読む »

この動画の反響は中国語圏でも大きかったようです。

・「永遠超愛妻子」日本藝術家松尾公也以Luma AI復活了亡妻

■2024年7月：動画生成AIのRunway Gen-3 Alpha登場。高品質でリップシンクも可能に

動画生成AIとしては最古参であるRunwayから、Sora世代のサービスRunway Gen-3 Alphaが登場しました。

前バージョンのGen-2から使えるリップシンクもサポートしています。この時点ではImage to Videoは未サポートです。

現実と超現実を動画AIが描く「Gen-3 Alpha」にできること、できないこと。老舗Runwayが投入したSora世代の高性能動画生成AI（CloseBox） | テクノエッジ TechnoEdge

動画生成AIでは老舗のRunwayがGen-3 Alphaを一般公開しました。使えるユーザーはStandardプラン以上。筆者はそれに該当しているので使ってみました。

https://www.techno-edge.net/article/2024/07/02/3507.html続きを読む »

7月にはRunway Gen-3だけでなく、KLING、Viduという中国製動画生成AIも参入。

アジア系に強い新世代動画生成AI「KLING」がやってきたので試した。実用性高く無料生成も可能、静止画KOLORSも使える（CloseBox） | テクノエッジ TechnoEdge

Soraに匹敵する高品質の動画生成AIとして注目を浴びながら、中国の携帯電話番号が必須だったことから世界中の羨望を集めていた、KLINGが一般ユーザーも利用可能になりました。

https://www.techno-edge.net/article/2024/07/24/3554.html続きを読む »

Runwayも負けておらず、Image to Videoをサポート。この辺りから動画生成AI分野での熾烈な競争が始まっています。

Runway Gen-3でImage to Videoとリップシンク生成可能に。これは現時点最強のAI動画モデルなのか？（CloseBox） | テクノエッジ TechnoEdge

7月30日、動画生成AIサービスの老舗であるRunwayが、最新モデルであるGen-3 AlphaでImage to Videoを使えるようにしました。

https://www.techno-edge.net/article/2024/07/30/3568.html続きを読む »

筆者の作例も、複数のサービスを組み合わせたものに変わってきています。

■2024年8月：超高速生成のRunway Gen-3 Alpha Turboと超高性能画像生成FLUX.1のLoRA

2024年8月は、新しい技術の登場がさらに加速します。Runway Gen-3は10数秒で10秒の動画を生成できるAlpha Turboになり、生産性を爆上げしました。月額95ドルのUnlimitedプランが使えるので、これ以降の動画生成はRunwayがメインとなっています。

10秒のAI動画を17秒で生成。Runway Gen-3 Alpha Turboの7倍高速化とUnlimitedプランでAI動画のワークフロー激変（CloseBox） | テクノエッジ TechnoEdge

動画生成AIの老舗、Runwayが新しいモデル「Gen-3 Alpha Turbo」を公開しました。これがすごいのです。

https://www.techno-edge.net/article/2024/08/16/3601.html続きを読む »

静止画でも大きな動きがありました。Stable Diffusionの開発者たちが独立して開発した新しい画像生成AIのFLUX.1がオープンソース公開され、LoRAも簡単に作成できるようになりました。

最高峰の画像生成AI「FLUX.1」で顔LoRA学習（2ドル）したら、AI動画生成も捗った話（CloseBox） | テクノエッジ TechnoEdge

なんといっても現在のトレンドはFLUX.1。これを自分の制作ワークフローに取り入れることができたのでご報告します。

https://www.techno-edge.net/article/2024/08/27/3615.html続きを読む »

これらを使ったミュージックビデオの作例では、これまでうまくいかなかった指の表現がちゃんと出てくる映像を多用しています。

8月末には筆者のSuno解説本が出版されました。この後、Sunoはv4になり、だいぶ機能が追加・改変されてますが……。

Suno AIではじめる音楽生成AI入門
￥2,049
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

■2024年9月：ChatGPTの高度な音声が利用可能に

感情豊かな音声対話が可能なChatGPT Advanced Voice Mode（高度な音声）がようやく利用可能になりました。これを使って、ポッドキャスト番組を作ってみました。

遅れに遅れたChatGPT高度な音声モードが公開開始されたので、AIパーソナリティーのポッドキャストを作ってみた（CloseBox） | テクノエッジ TechnoEdge

OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。

https://www.techno-edge.net/article/2024/09/25/3715.html続きを読む »

最近ではさらに進化しており、画面共有やカメラの映像を見ながら対話もできるようになっています。Geminiでも同様なことが可能。

ChatGPTでサンタさんとの音声会話ができるように。iPhoneだけでGoogle Stream Realtime対抗のビデオ・画面共有会話もやってみた（CloseBox） | テクノエッジ TechnoEdge

OpenAIが12日間、新機能を発表する「12 Days of OpenAI」、6日目はChatGPTのAdvanced Voice Mode（高度な音声）の新機能について。

https://www.techno-edge.net/article/2024/12/13/3916.html続きを読む »

9月には故郷の長崎に帰省し、古い写真を動画で甦らせるという体験もしました。亡き父、亡き友人について、動く写真を見ながら語りました。

生まれた時にはこの世にいない「写真1枚だけの父親」がAIで動く姿を親父に見せた（CloseBox） | テクノエッジ TechnoEdge

今年90歳になった僕の父は、自分の父親の記憶がありません。生まれた時には亡くなっていたからです。唯一残された写真をAIで動画にして見せてみました。

https://www.techno-edge.net/article/2024/09/19/3691.html続きを読む »

■2024年10月：AI作曲がお茶の間デビュー。ハマスカ放送部でSunoをハマ・オカモト、齋藤飛鳥に教える

10月には台湾・高雄で開催されたTTXCにAIゲームイベントの審査員として参加。その後はテレビ朝日の番組「ハマスカ放送部」に出演し、SunoによるAI作曲の指導を行うという多忙な日々を送りました。

eスポーツと生成AIが融合したらどうなる？　画像生成AIのプロンプトで戦うアーケードゲーム「VS AI街頭對戰」世界大会決勝を審査して感じた未来（CloseBox） | テクノエッジ TechnoEdge

筆者は先日、今年二度目の台湾旅行をしてきました。前回は、自分の作品が台北当代芸術館（MOCA Taipei）の「Hello, Human!」に展示されるというのでその様子を見に行ったのですが、今回は台湾南部の大都市、高雄市で行われているTTXC（台湾技術文化展示会）に参加するためです。具体的には、TTXCの目玉展示の一つである、対戦型AIアーケードゲーム「VS AI街頭對戰」の世界大会決勝の審査員を務めるというのが目的でした。

https://www.techno-edge.net/article/2024/10/24/3781.html続きを読む »

テレビ朝日「ハマスカ放送部」をご覧になった方のためのSuno AI入門（CloseBox） | テクノエッジ TechnoEdge

今回のハマスカ放送部のテーマは生成AIによる作曲。ご覧いただいた方に向けて、この回で使った「Suno AI」というソフトの操作方法を軽く紹介します。

https://www.techno-edge.net/article/2024/10/29/3793.html続きを読む »

筆者がその場でSunoで作曲した「トンツカタン森本の歌」はその後も番組で取り上げられ、定番曲として歌い継がれているようです。

■2024年11月：特定人物の画像生成AIとして脚光を浴びたHeyGenは音声モデルも搭載

リップシンクで最先端を走っているHeyGenがファインチューニングをサポートし、画像生成AIとしても実力があることを示しました。実際に試したところ、FLUX.1 [dev] のLoRAと比較しても遜色のない、むしろこっちの方がいいのではないかというレベルに。

HeyGenが進化し、20枚の写真から表現力あるAIアバターを作成。OpenAIの多言語ボイスクローン使用か（CloseBox） | テクノエッジ TechnoEdge

HeyGenが、20枚以上（10枚程度でも可能）の本人写真・画像があれば、そのアバターを作って、リアルなリップシンクができるようになったのです。さらに、ボイスクローンも。

https://www.techno-edge.net/article/2024/11/05/3805.html続きを読む »

さらにボイスクローン技術も搭載してTTS（Text to Speech）も可能に。この技術を使って、妻のクックパッドレシピをリップシンクで読み上げてもらいました。

11月にはSunoも超強力な機能「Persona（ペルソナ）」を投入。歌声と音楽スタイルを固定できる機能で、オリジナルの歌手を作れるのです。これで、筆者自身と妻の歌声の分身を作りました。これで、二人の歌声でダイレクトに曲が作れるようになりました。

■2024年12月：Soraが使えるようになり、GoogleはライバルVeo 2を発表。MacBook Pro（128GB）内製でどこまで対抗できる？

2月に発表されたOpenAIのSoraが、ヴェイパーウェアではなくなりました。実際に使ってみて、たしかに画像はいいけれども万能というわけではないことがわかりました。

「登場即ライバル動画生成AI死亡」ではなかった。使ってわかったSoraの品質と限界（CloseBox） | テクノエッジ TechnoEdge

https://www.techno-edge.net/article/2024/12/10/3908.html続きを読む »

Googleが対抗してVeo 2を出しましたが、現在ウェイティングリスト状態。品質は良さそうですが、例によってGoogleなのでSoraよりさらに自主規制が厳しくなりそうで、オープンソース勢に期待したいところです。

現在はHunyuan Videoが評価が高いですが、Image to Videoがまだ。筆者はローカルマシン（M4 Max MacBook Pro）で動かしているPyramid Flowがそこそこの高画質なのでさらに高速化するといいなあ。

ローカルマシンだけで生成AIはどこまでいける？　MacBook Pro（M4 Max、128GBメモリ）を手に入れたローカルAI男子の遠吠え（2024年ベストバイ） | テクノエッジ TechnoEdge

128GB M4 Max MacBook Pro、予約しただけで記事を書いた私ですが、ようやく届いたので、いろいろとやりたかったことを試しています。

https://www.techno-edge.net/article/2024/12/17/3933.html続きを読む »

一方、静止画の最新モデルであるGoogle Imagen 3（ImageFX）でテキストプロンプトで生成した画像をSoraで20秒の動画にし、Suno v4で音楽をつけた作例。これは全工程が2、3分でできます。

■筆者の半生を描いたドキュメンタリーとこの記事をChatGPTと語るポッドキャスト

さて、今年の締めくくりに、筆者の半生を描いた長編ドキュメンタリー（1時間51分）を紹介します。

技術的なことはほぼ取り上げていませんが、筆者が生成AIを使って妻との交流を目指すに至った経緯などがわかると思います。

長編ドキュメンタリー作品「AIで愛になる～超愛妻家・松尾公也とテクノロジーの未来」が公開されます（CloseBox） | テクノエッジ TechnoEdge

自分の半生を描いたドキュメンタリー作品がYouTubeで公開されます。

https://www.techno-edge.net/article/2024/12/14/3923.html続きを読む »

この記事をChatGPTのAdvanced Voice Modeと共有しながら、二人でポッドキャストを収録してみました。

ポッドキャストの中でChatGPTが提案してくれた歌詞を、Suno v4で曲として完成させたので、それもあわせてどうぞ。

作詞：ChatGPT
作曲・演奏：Suno v4
歌：妻音源とりちゃん[AI] Suno Persona
画像：HeyGen
動画：Runway Gen-3 Alpha Turbo、Sora

音楽・動画AIの進化が加速した2024年の生成AIを記事とビデオとポッドキャストで振り返る（CloseBox）

松尾公也

特集

■2024年1月：台湾のAIアート展にAI作曲による生成AIオリジナル曲ミュージックビデオを展示

■2024年2月：2分の曲を一気に作れるSuno v3登場。架空のバンドによる架空のコンセプトアルバムを数時間で制作し、商業配信も

■2024年3月：大河ドラマ「光る君へ」スタート記念。枕草子ラップ

■2024年4月：Sunoの強力なライバルUdio登場。超リアルなボーカルが衝撃的

■2024年5月：数秒の音声があればその人の声でリアルタイム歌唱できるVocoflexを試す

■2024年6月：Suno v3.5で4分の高品質WAV提供。Luma Dream MachineによるImage to VideoがSoraレベルに

■2024年7月：動画生成AIのRunway Gen-3 Alpha登場。高品質でリップシンクも可能に

■2024年8月：超高速生成のRunway Gen-3 Alpha Turboと超高性能画像生成FLUX.1のLoRA

■2024年9月：ChatGPTの高度な音声が利用可能に

■2024年10月：AI作曲がお茶の間デビュー。ハマスカ放送部でSunoをハマ・オカモト、齋藤飛鳥に教える

■2024年11月：特定人物の画像生成AIとして脚光を浴びたHeyGenは音声モデルも搭載

■2024年12月：Soraが使えるようになり、GoogleはライバルVeo 2を発表。MacBook Pro（128GB）内製でどこまで対抗できる？

■筆者の半生を描いたドキュメンタリーとこの記事をChatGPTと語るポッドキャスト

Amazon売れ筋ランキング

松尾公也

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

【生成AI・スマホ・自作PCほか】配信・イベントスケジュール：ライブ配信とリアルに会場へ集う2種類のイベント

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

賞金総額140万円！ゲーム開発コンテスト『Tokyo Game Jam』参加者募集。ハッカソンの参加のコツとは？

BYOD時代、Chromebookが保護者の悩みを解決。高校生の学習サポートの最適解

高コスパ格安スマホBlackview Shark 8がクーポン併用で33％オフ約2万円のセール。64MPカメラに120Hz画面・33W急速充電で2年保証つき

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

■2024年1月：台湾のAIアート展にAI作曲による生成AIオリジナル曲ミュージックビデオを展示

■2024年2月：2分の曲を一気に作れるSuno v3登場。架空のバンドによる架空のコンセプトアルバムを数時間で制作し、商業配信も

■2024年3月：大河ドラマ「光る君へ」スタート記念。枕草子ラップ

■2024年4月：Sunoの強力なライバルUdio登場。超リアルなボーカルが衝撃的

■2024年5月：数秒の音声があればその人の声でリアルタイム歌唱できるVocoflexを試す

■2024年6月：Suno v3.5で4分の高品質WAV提供。Luma Dream MachineによるImage to VideoがSoraレベルに

■2024年7月：動画生成AIのRunway Gen-3 Alpha登場。高品質でリップシンクも可能に

■2024年8月：超高速生成のRunway Gen-3 Alpha Turboと超高性能画像生成FLUX.1のLoRA

■2024年9月：ChatGPTの高度な音声が利用可能に

■2024年10月：AI作曲がお茶の間デビュー。ハマスカ放送部でSunoをハマ・オカモト、齋藤飛鳥に教える

■2024年11月：特定人物の画像生成AIとして脚光を浴びたHeyGenは音声モデルも搭載

■2024年12月：Soraが使えるようになり、GoogleはライバルVeo 2を発表。MacBook Pro（128GB）内製でどこまで対抗できる？

■筆者の半生を描いたドキュメンタリーとこの記事をChatGPTと語るポッドキャスト

Amazon売れ筋ランキング

SHARE THE STORY この記事をみんなにシェア

松尾公也

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中