この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。
PCパーツショップのドスパラの運営元であるサードウェーブが主催する「24時間AIハッカソン Powered by GALLERIA」は9月14日から15日、「東京24時間AIハッカソン 2024」を開催しました。
今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。
今回は、過去作った記事などのヘッダー画像+αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。
日本時間9月26日未明に開催されたMeta Connect 2024より。Metaは同社初となるARグラス「Orion」を発表しました。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。
OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。
「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。
話題のオープンソース動画生成AI「CogVideo」をローカルマシンに超簡単インストールできたのです。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第64回)では、オープンソースな音声AI技術を2つ、AIと音声対話できる「LLaMA-Omni」と、テキストを読み上げる「Fish Speech V1.4」を取り上げます。
Sunoが投入してきた新機能、ネガティブプロンプト「Exclude Styles」について解説します。
今年90歳になった僕の父は、自分の父親の記憶がありません。生まれた時には亡くなっていたからです。唯一残された写真をAIで動画にして見せてみました。
1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。
作曲AIサービスのSunoが、新しい機能「Covers」を追加しました。楽曲のアレンジや歌詞を変えた「カバー曲」を作るためのものです。