テスラは日本時間10月11日に開催されたイベント「We, Robot」で2人乗りの自動運転ロボットカー「サイバーキャブ(Cybercab)」と、最大20人が乗れるという「ロボバン(Robovan)」を発表しました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、日本語専用LLMベンチマーク「JMMMU」や、Appleの画像深度推定モデル「Depth Pro」を取り上げます。また、Metaが開発した動画生成AI「MovieGen」や、テキストや画像1枚から3Dコンテンツを生成する「Flex3D」をご紹介します。
これはすごいと話題になっていたYouTube動画。これに対抗しようとやってみました。
Image to Video、つまり静止画を短い動画にできる動画生成AIの新サービスが登場しました。中国の「Hailuo」(ハイルオ)がそれで、中国製動画生成AIとしては、KLING、Viduに次ぐ3番手となります。
AIアート作品コンテスト「第三回AIアートグランプリ」の予選通過作品が決定しました。
テクノエッジ編集部では、「TechnoEdge-Side」(テクノエッジ・サイド)を2週に1回のペースでお届けしています。
今回は、スマートグラスに映る他人の顔から名前や住所などの個人情報を特定する技術を説明したドキュメント「I-XRAY: The AI Glasses That Reveal Anyone’s Personal Details—Home Address, Name, Phone Number, and More—Just from Looking at Them」に注目します。
FLUX.1登場から約2ヶ月経った現状
AIリップシンクサービスのHedraが新バージョン「Character-2」を公開したので使ってみました。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。
PCパーツショップのドスパラの運営元であるサードウェーブが主催する「24時間AIハッカソン Powered by GALLERIA」は9月14日から15日、「東京24時間AIハッカソン 2024」を開催しました。
今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。
今回は、過去作った記事などのヘッダー画像+αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。
OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。
「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。
元Appleで数多くの製品デザインを手掛けたジョニー・アイブが、OpenAIのサム・アルトマンと「AIデバイス」製品を開発していることを認めました。
話題のオープンソース動画生成AI「CogVideo」をローカルマシンに超簡単インストールできたのです。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第64回)では、オープンソースな音声AI技術を2つ、AIと音声対話できる「LLaMA-Omni」と、テキストを読み上げる「Fish Speech V1.4」を取り上げます。
Sunoが投入してきた新機能、ネガティブプロンプト「Exclude Styles」について解説します。
今年90歳になった僕の父は、自分の父親の記憶がありません。生まれた時には亡くなっていたからです。唯一残された写真をAIで動画にして見せてみました。
1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。
作曲AIサービスのSunoが、新しい機能「Covers」を追加しました。楽曲のアレンジや歌詞を変えた「カバー曲」を作るためのものです。
中国産動画生成AI「Vidu」に、Reference to Videoという新機能が加わりました。AI動画生成でObject Consistency、つまり対象物の一貫性を保つことが可能になったのです。
今回のAppleの発表で気になるのは、「新製品は、Apple Intelligenceのために必要なものかどうか」です。
iPhone 16など「アップル秋の新製品」をアップル本社で触ってきた
アップルが9日のスペシャルイベントで発表した新製品、iPhone 16シリーズと新Apple Watch、新AirPodsの実機ハンズオンギャラリーをお届けします。
9月9日のスペシャルイベントで、Appleが iPhone 16 Pro / Pro Maxを発表しました。
この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第63回)では、GPT-4oやClaude 3.5 SonnetなどのクローズドLLMと同等以上の性能を謳うオープンソースLLM「Reflection 70B」や、画像生成AI「FLUX」をベースにした音楽生成AI「FluxMusic」などを取り上げます。
Appleは9月9日に新製品発表のスペシャルイベントを開催します。日本時間では9月10日午前2時から。
画像生成AIのプロンプト技を競う世界大会が10月、台湾で開催されます。
1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」において、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。
11月8日、9日に秋葉原で開催されるAIイベント「AIフェスティバル 2024 Powered by GALLERIA」の講演内容が発表されました。
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第62回)では、主要LLMでは制限がかかるような内容でも精度高く出力できるローカルLLM「Command R+」の最新バージョンや、論文などのドキュメントとチャットできるAIインタフェース「kotaemon」を取り上げます。
AI音楽生成サービス「LoudMe」が、実はSunoから違法にアクセスしているという指摘が浮上。LoudMeはSunoの無料アカウントを利用し、無断で楽曲を生成しているとの情報が公開された。
この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。
Runway Gen-3 Alphaで40秒までの動画生成ができるようになったので、試してみました。
非常に高性能な画像生成AI「ImageFX(Imagen 3)」の登場です。
新型Forgeその後