その日はいきなりやって来た!
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第60回)では、2万語を一度に出力するモデル「LongWriter」、Googleの画像生成AI「Imagen 3」、そして科学研究を支援する「The AI Scientist」と「OpenResearcher」などを取り上げます。
動画生成AIの老舗、Runwayが新しいモデル「Gen-3 Alpha Turbo」を公開しました。これがすごいのです。
イーロン・マスクが8月12日にほのめかしてた、Xと連動した生成AI「Grok」新バージョンGrok 2 mini(beta)の画像生成機能が、自分のアカウントでも使えるようになりました。
テクノエッジ編集部では、「TechnoEdge-Side」(テクノエッジ・サイド)を2週に1回のペースでお届けしています。今回は、8月14日に開催されたMade by Googleイベントで発表されたGoogleの新製品などについて語ります。
AIリップシンクにまた大きな波が訪れました。
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第59回)では、オープンソースの動画生成AI「CogVideoX」や、動画理解でGPT-4VやClaude 3.5 Sonnetなどを精度で上回るMLLM「MiniCPM-V 2.6」を取り上げます
しばらくベータテスターをしていた、DreamtonicsのAIボイスチェンジャー「Vocoflex」。その製品版がついにリリースされたので、購入しました。
Google は、批判を受けていたGemini AIのコマーシャル『Google + Team USA − Dear Sydney』を放送から取り下げました。
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第58回)では、先日OpenAIが発表した「SearchGPT」など、Webのタイムリーな情報と大規模言語モデルを組みわせた検索AIのオープンソースモデル「MindSearch」や、Stability AIが発表した、単一の入力画像から3Dメッシュを0.5秒で生成する「Stable Fast 3D」を取り上げます。
1枚の人物画像から動画を生成するAIモデルが4種類、揃いました。Luma AI Dream Machine、Runway Gen-3 Alpha、KLING、Vidu。これらを同じ人物写真(画像)、同じプロンプトで比較してみます。
基本的に、アプリケーションのユーザーインターエイス(UI)は開発時に設計され実装されて、その実装通りに実行時に表示されるものです。
KLINGのサブスクリプションが開始されたばかりですが、翌日の7月31日に早くもライバルが登場しました。同じく中国の動画生成AIサービスで、「Vidu」というものです。といってもぽっと出ではなく、4月末辺りからSoraクラスの動画生成AIとして発表され、注目はされていました。このViduが一般利用可能になったのです。
7月30日、動画生成AIサービスの老舗であるRunwayが、最新モデルであるGen-3 AlphaでImage to Videoを使えるようにしました。