AI

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第71回)では、1枚の画像から3D/4Dシーンを生成するAIモデル「DimensionX」や、テンセント開発の巨大オープンソース大規模言語モデル「Hunyuan-Large」を取り上げます。

祝PS5 Pro発売。憧れのマシンの性能を『OS代込みで12万円のゲーミング自作PC』でどの程度まで行けるのか、作って試してみる。オンラインイベントを11月16日開催 画像
ガジェット

祝PS5 Pro発売。憧れのマシンの性能を『OS代込みで12万円のゲーミング自作PC』でどの程度まで行けるのか、作って試してみる。オンラインイベントを11月16日開催

テクノロジージャーナリストの西川善司さんを講師に、すでに組み上げ済みのPS5 Pro同予算自作ゲーミングPCの実演と解説をを行います。

“生成AI活用”の上位10%は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証(生成AIクローズアップ) 画像
テクノロジー

“生成AI活用”の上位10%は生産性が2倍近く向上するが「下位3分の1は効果なし」の理由。研究者1000人以上でMITが検証(生成AIクローズアップ)

生成AIが科学的発見とイノベーションにどのような影響を与えるのかについて、研究者たちに生成AIツールを使わせて、その効果を検証した論文「Artificial Intelligence, Scientific Discovery, and Product Innovation」に注目します。

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

ゲームエンジン不要。プレイ操作に応じてAIがリアルタイム生成するオープンワールドゲーム「Oasis」、Minecraftに500体の自律AIによる文明構築など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第70回)では、劣化した写真を修復するAIモデル「DreamClear」や、新しいText-to-Speechモデル「MaskGCT」を取り上げます。

楽天モバイルのRakuten LinkにチャットAIが登場。生成AIが無料で文章作成や要約をサポート(石野純也) 画像
ガジェット

楽天モバイルのRakuten LinkにチャットAIが登場。生成AIが無料で文章作成や要約をサポート(石野純也)

楽天モバイルは、10月31日に「Rakuten Link」に生成AIを導入し、無料で文章作成や要約を提供します。AIは日常的に質問可能で、今後のサービス拡充が期待されます。

ChatGPT searchはGoogle検索の脅威となるか? 試してわかったこと(Google Tales) 画像
テクノロジー

ChatGPT searchはGoogle検索の脅威となるか? 試してわかったこと(Google Tales)

OpenAIがSearchGPTの提供を開始したことが、すわGoogle検索キラーの本命か、とかなり話題になっておりました。Googleも、かなり危機感を持っていると思います。

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む(生成AIクローズアップ)  画像
テクノロジー

この世に“存在しない”DNA配列をAIが創造。生成した人工DNA配列をマウスや魚に組み込む(生成AIクローズアップ) 

今回は、自然界に存在しないDNA配列を生成できるAIシステムを提案した論文「Machine-guided design of cell-type-targeting cis-regulatory elements」に注目します。

HeyGenが進化し、20枚の写真から表現力あるAIアバターを作成。OpenAIの多言語ボイスクローン使用か(CloseBox) 画像
テクノロジー

HeyGenが進化し、20枚の写真から表現力あるAIアバターを作成。OpenAIの多言語ボイスクローン使用か(CloseBox)

HeyGenが、20枚以上(10枚程度でも可能)の本人写真・画像があれば、そのアバターを作って、リアルなリップシンクができるようになったのです。さらに、ボイスクローンも。

GitHubで最も使われている言語、PythonがJavaScriptを抜き1位に。生成AI関連プロジェクト急増が要因 画像
テクノロジー

GitHubで最も使われている言語、PythonがJavaScriptを抜き1位に。生成AI関連プロジェクト急増が要因

GitHubは、この1年のGitHubにおけるGitHubの利用動向やオープンソースの動向などをまとめた年次レポート「Octoverse 2024」を発表しました。

バーチャルシンガー作り放題・作曲しまくりの新時代到来。AI作曲サービスSunoで「ボーカリスト指名」が可能、自分の声での新曲も(CloseBox) 画像
テクノロジー

バーチャルシンガー作り放題・作曲しまくりの新時代到来。AI作曲サービスSunoで「ボーカリスト指名」が可能、自分の声での新曲も(CloseBox)

歌詞や音楽スタイルを入力すればAIがボーカルを含んだ楽曲を自動生成してくれるサービス「Suno」に待望の新機能が追加されました。「Personas」(ペルソナ)です。

商用可能な高精度オープン動画生成AI「Mochi 1」と「Allegro」、数時間喋らせるローカル実行可能なリップシンク生成AI「Hallo2」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

商用可能な高精度オープン動画生成AI「Mochi 1」と「Allegro」、数時間喋らせるローカル実行可能なリップシンク生成AI「Hallo2」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第69回)では、顔の静止画を音声駆動でアニメーション化するオープンソースのリップシンク生成AI「Hallo2」や、マイクロソフトが開発するAIが画面操作する「OmniParser」をご紹介します。また、オープンソースな動画生成AIを2つ、商用利用可能な「Allegro」と、2,840万ドルの資金調達に成功したGenmoが開発した「Mochi 1」を取り上げます。

GitHub、プロンプトだけでアプリ生成できる「GitHub Spark」テクニカルプレビュー公開。スマホにも対応 画像
テクノロジー

GitHub、プロンプトだけでアプリ生成できる「GitHub Spark」テクニカルプレビュー公開。スマホにも対応

GitHubは、日本時間10月30日未明に開幕したイベント「GitHub Universe'24」で、自然言語による指示だけで、パーソナライズされた小規模なアプリケーション(Micro-App)をすぐに生成できる「GitHub Spark」の テクニカルプレビューを発表しました 。

テレビ朝日「ハマスカ放送部」をご覧になった方のためのSuno AI入門(CloseBox) 画像
テクノロジー

テレビ朝日「ハマスカ放送部」をご覧になった方のためのSuno AI入門(CloseBox)

今回のハマスカ放送部のテーマは生成AIによる作曲。ご覧いただいた方に向けて、この回で使った「Suno AI」というソフトの操作方法を軽く紹介します。

Suno AIのiPhoneアプリ、日本のApp Storeに登場。「スノー - AI音楽」で写真やビデオをその場で音楽に(CloseBox) 画像
テクノロジー

Suno AIのiPhoneアプリ、日本のApp Storeに登場。「スノー - AI音楽」で写真やビデオをその場で音楽に(CloseBox)

米国App Storeのみで提供されていた、AI作曲サービスSunoのiPhoneアプリが、日本でも提供開始されました。日本語名は「スノー - AI音楽」。

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術(生成AIクローズアップ) 画像
テクノロジー

「“毒入り音楽”でAIに学習させない」――人には聞こえないノイズを音声にこっそり入れ訓練不能にする技術(生成AIクローズアップ)

人には聞こえないノイズを音楽に埋め込み、その音声をAIモデルが学習できないようにする防御フレームワークを提案した論文「HarmonyCloak: Making Music Unlearnable for Generative AI」を取り上げます。

TSMCも頼る、コンピュータの守護スナック「乖乖」。AIを組み合わせると何が起こる?(CloseBox) 画像
テクノロジー

TSMCも頼る、コンピュータの守護スナック「乖乖」。AIを組み合わせると何が起こる?(CloseBox)

台湾には「乖乖」(Quai Quai)というスナック菓子があります。TSMCをはじめとする台湾企業は世界のコンピュータ産業の中核をなしていますが、彼らがこの乖乖を機械の守護神として扱っているのはご存知でしょうか?

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説(生成AIウィークリー) 画像
テクノロジー

1000憶パラメータLLMをシングルCPUでローカル実行できる「bitnet.cpp 1.0」、新テキスト読み上げAI「F5-TTS」など生成AI技術6つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第68回)では、テキストを読み上げるTTSシステム「F5-TTS」や、会話AIモデル「Ichigo」を取り上げます。また、単一CPUでLLMで実行できる、Microsoftの1ビットLLM推論フレームワーク「bitnet.cpp 1.0」などをご紹介します。

eスポーツと生成AIが融合したらどうなる? 画像生成AIのプロンプトで戦うアーケードゲーム「VS AI街頭對戰」世界大会決勝を審査して感じた未来(CloseBox) 画像
テクノロジー

eスポーツと生成AIが融合したらどうなる? 画像生成AIのプロンプトで戦うアーケードゲーム「VS AI街頭對戰」世界大会決勝を審査して感じた未来(CloseBox)

筆者は先日、今年二度目の台湾旅行をしてきました。前回は、自分の作品が台北当代芸術館(MOCA Taipei)の「Hello, Human!」に展示されるというのでその様子を見に行ったのですが、今回は台湾南部の大都市、高雄市で行われているTTXC(台湾技術文化展示会)に参加するためです。具体的には、TTXCの目玉展示の一つである、対戦型AIアーケードゲーム「VS AI街頭對戰」の世界大会決勝の審査員を務めるというのが目的でした。

グラミー受賞の超大物プロデューサーがAI作曲サービスSuno活用を宣言。ティンバランドによるAIツール支持は反AIに動く音楽業界を揺らすか(CloseBox) 画像
テクノロジー

グラミー受賞の超大物プロデューサーがAI作曲サービスSuno活用を宣言。ティンバランドによるAIツール支持は反AIに動く音楽業界を揺らすか(CloseBox)

主要音楽レーベルがAI作曲サービスのSunoとUdioを提訴したのが6月24日。それから4カ月が過ぎたタイミングで、Sunoがクリエイティブな方向からの反撃を仕掛けました。超大物プロデューサーが活用しているという事例です。

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見(生成AIクローズアップ) 画像
テクノロジー

ノーベル化学賞受賞の「AlphaFold2」、精子と卵子が結びつく仕組みを新発見(生成AIクローズアップ)

今年のノーベル化学賞を受賞した2人が開発に貢献したタンパク質構造AI予測ツール「AlphaFold」シリーズによって、精子と卵子の結合メカニズムを明らかにした論文「A conserved fertilization complex bridges sperm and egg in vertebrates」に注目します。

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第67回)では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」などを取り上げます。

撮影したもの全てを曲にできる、Suno AI iPhoneアプリが人生をサントラ化する(CloseBox) 画像
テクノロジー

撮影したもの全てを曲にできる、Suno AI iPhoneアプリが人生をサントラ化する(CloseBox)

Suno AIの公式iOSアプリに新機能「Scenes」が追加されました。Sunoのモバイルアプリは米国App Storeでしか公開されていませんが、米国App Store専用にしているiPhoneを使い、試してみました。

わずか10秒の元音声でもリアルな「なりきりボイチェン」できる無料ソフト『Seed-VC』は過去最高レベルの再現度か(CloseBox) 画像
テクノロジー

わずか10秒の元音声でもリアルな「なりきりボイチェン」できる無料ソフト『Seed-VC』は過去最高レベルの再現度か(CloseBox)

筆者はUTAUによる波形接続の時代から「その人の声になりきる」技術を試してきましたが、このほど、その中でも画期的と思える技術に出会いました。『Seed-VC』(Seed Voice Conversion)というオープンソースソフトです。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第34回:FLUX 1.1 [pro]出たけど… / 表情を自在に操るAdvanceLivePortrait (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第34回:FLUX 1.1 [pro]出たけど… / 表情を自在に操るAdvanceLivePortrait (西川和久)

10月2日FLUX 1.1 [pro]発表!でも使用はAPIのみ

実写もAI動画も2秒だけ伸ばせるAdobe Premiere ProのAI新機能『生成拡張』を試したら、違和感がなさすぎて驚いた(CloseBox) 画像
テクノロジー

実写もAI動画も2秒だけ伸ばせるAdobe Premiere ProのAI新機能『生成拡張』を試したら、違和感がなさすぎて驚いた(CloseBox)

Adobe MAX 2024が始まりました。Sneak Previewについては西田宗千佳さんに速報を執筆いただいているところなのですが、生成AI機能が使えるようになった動画エディターのPremier Proのベータ版がすでに公開されていて試すことができたので、ファーストインプレッションを。

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析(生成AIクローズアップ) 画像
テクノロジー

AIがRNA新種ウイルス7万以上を発見。中国の研究チームが新AIモデルLucaProtでサンプル分析(生成AIクローズアップ)

AIがRNAの未知なる領域を解析し、7万以上の新種ウイルスを発見した論文「Using artificial intelligence to document the hidden RNA virosphere」について。

日本人をうまく動かせる動画生成AI「Hailuo」が3日間無制限モード開放中。有償プランスタートに合わせ(CloseBox) 画像
テクノロジー

日本人をうまく動かせる動画生成AI「Hailuo」が3日間無制限モード開放中。有償プランスタートに合わせ(CloseBox)

中国製の動画生成AIサービス「Hailuo」の紹介をし、その中でサブスクリプションサービスが待たれる、と書いていましたが、意外なほど早くきました。本日(10月11日)スタートです。

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、日本語専用LLMベンチマーク「JMMMU」や、Appleの画像深度推定モデル「Depth Pro」を取り上げます。また、Metaが開発した動画生成AI「MovieGen」や、テキストや画像1枚から3Dコンテンツを生成する「Flex3D」をご紹介します。

Suno AIで80年代J-POP偽コンピを作ってみたけど、歌詞間違いのボツがつらい……いや、簡単に部分修正できるようになってるじゃないか(CloseBox) 画像
テクノロジー

Suno AIで80年代J-POP偽コンピを作ってみたけど、歌詞間違いのボツがつらい……いや、簡単に部分修正できるようになってるじゃないか(CloseBox)

これはすごいと話題になっていたYouTube動画。これに対抗しようとやってみました。

動画生成AIにまたもや新星。「Hailuo」は写真を6秒の動画にできて(今のところは)無料。かつ人物の一貫性に優れている(CloseBox) 画像
テクノロジー

動画生成AIにまたもや新星。「Hailuo」は写真を6秒の動画にできて(今のところは)無料。かつ人物の一貫性に優れている(CloseBox)

Image to Video、つまり静止画を短い動画にできる動画生成AIの新サービスが登場しました。中国の「Hailuo」(ハイルオ)がそれで、中国製動画生成AIとしては、KLING、Viduに次ぐ3番手となります。

第三回AIアートグランプリ、一次審査通過10作品、絵画部門11作品決まる。最終審査会は11月9日 画像
テクノロジー

第三回AIアートグランプリ、一次審査通過10作品、絵画部門11作品決まる。最終審査会は11月9日

AIアート作品コンテスト「第三回AIアートグランプリ」の予選通過作品が決定しました。

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ) 画像
テクノロジー

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ)

今回は、スマートグラスに映る他人の顔から名前や住所などの個人情報を特定する技術を説明したドキュメント「I-XRAY: The AI Glasses That Reveal Anyone’s Personal Details—Home Address, Name, Phone Number, and More—Just from Looking at Them」に注目します。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第33回:FLUX.1登場から約2ヶ月(西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第33回:FLUX.1登場から約2ヶ月(西川和久)

FLUX.1登場から約2ヶ月経った現状

AIリップシンクのHedraが大幅機能アップの「Character-2」投入。AIミュージックビデオやAIポッドキャストが実用域に(CloseBox) 画像
テクノロジー

AIリップシンクのHedraが大幅機能アップの「Character-2」投入。AIミュージックビデオやAIポッドキャストが実用域に(CloseBox)

AIリップシンクサービスのHedraが新バージョン「Character-2」を公開したので使ってみました。

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。

AI普及で人間の役割は「発想力」へ。東京24時間AIハッカソン 2024イベントリポート 画像
テクノロジー

AI普及で人間の役割は「発想力」へ。東京24時間AIハッカソン 2024イベントリポートPR

PCパーツショップのドスパラの運営元であるサードウェーブが主催する「24時間AIハッカソン Powered by GALLERIA」は9月14日から15日、「東京24時間AIハッカソン 2024」を開催しました。

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ) 画像
テクノロジー

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ)

今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。

グラビアカメラマンがAI生成したグラビア写真をAIで動画化してみた。架空ゲームショウの謎コスプレもあるよ(西川和久&松尾公也) 画像
テクノロジー

グラビアカメラマンがAI生成したグラビア写真をAIで動画化してみた。架空ゲームショウの謎コスプレもあるよ(西川和久&松尾公也)

今回は、過去作った記事などのヘッダー画像+αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。

Meta初のARメガネ「Orion」発表。70度の広視野角、視線認識や筋電リストバンドで操作 画像
ガジェット

Meta初のARメガネ「Orion」発表。70度の広視野角、視線認識や筋電リストバンドで操作

日本時間9月26日未明に開催されたMeta Connect 2024より。Metaは同社初となるARグラス「Orion」を発表しました。

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。

遅れに遅れたChatGPT高度な音声モードが公開開始されたので、AIパーソナリティーのポッドキャストを作ってみた(CloseBox) 画像
テクノロジー

遅れに遅れたChatGPT高度な音声モードが公開開始されたので、AIパーソナリティーのポッドキャストを作ってみた(CloseBox)

OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ) 画像
テクノロジー

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ)

「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。