山下裕毅(Seamless)の記事一覧(3ページ中2ページ目)

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Appleの奥行き推定AI「Depth Pro」・Metaの動画生成AI「MovieGen」・日本語専用AIベンチ「JMMMU」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、日本語専用LLMベンチマーク「JMMMU」や、Appleの画像深度推定モデル「Depth Pro」を取り上げます。また、Metaが開発した動画生成AI「MovieGen」や、テキストや画像1枚から3Dコンテンツを生成する「Flex3D」をご紹介します。

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ) 画像
テクノロジー

スマートグラスで個人情報を「透視」。見ている相手のプライバシーデータをリアルタイムで表示する技術「I-XRAY」(生成AIクローズアップ)

今回は、スマートグラスに映る他人の顔から名前や住所などの個人情報を特定する技術を説明したドキュメント「I-XRAY: The AI Glasses That Reveal Anyone’s Personal Details—Home Address, Name, Phone Number, and More—Just from Looking at Them」に注目します。

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ) 画像
テクノロジー

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか? 200人を対象にMITが実験(生成AIクローズアップ)

今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

人間のようなやり取りで話すローカル会話AI「Moshi」、10秒の話し声を既存楽曲のボーカルに変換できる音楽生成AI「Seed-Music」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第65回)では、対話スピードや会話中の割り込みの自然さなど、人間と話しているかのような会話ができるモデル「Moshi」や、ByteDanceが開発した音楽生成・編集モデル「Seed-Music」を取り上げます。

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ) 画像
テクノロジー

Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ)

「私はロボットではありません」でお馴染みのGoogleが開発する「CAPTCHA」を突破するAIシステムを提案した論文「Breaking reCAPTCHAv2」を取り上げます。

オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

オープンワールドゲームを生成するAI「GameGen-O」、テキスト化を省き瞬時に応えるオープン音声AIモデル「LLaMA-Omni」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第64回)では、オープンソースな音声AI技術を2つ、AIと音声対話できる「LLaMA-Omni」と、テキストを読み上げる「Fish Speech V1.4」を取り上げます。

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ) 画像
テクノロジー

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明 モデル改良や回避システムでも不可避とする論文(生成AIクローズアップ)

1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説(生成AIウィークリー) 画像
テクノロジー

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術・研究をピックアップして解説する「生成AIウィークリー」(第63回)では、GPT-4oやClaude 3.5 SonnetなどのクローズドLLMと同等以上の性能を謳うオープンソースLLM「Reflection 70B」や、画像生成AI「FLUX」をベースにした音楽生成AI「FluxMusic」などを取り上げます。

生成AIが大企業プログラマの仕事に与える影響 マイクロソフトなど企業4800人以上を調査した結果(生成AIクローズアップ) 画像
テクノロジー

生成AIが大企業プログラマの仕事に与える影響 マイクロソフトなど企業4800人以上を調査した結果(生成AIクローズアップ)

1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」において、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。

R18成人向け文章も生成できる高性能ローカルAI「Command R+」最新版登場、プレイ画面をリアタイで画像生成できるゲームエンジン「GameNGen」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

R18成人向け文章も生成できる高性能ローカルAI「Command R+」最新版登場、プレイ画面をリアタイで画像生成できるゲームエンジン「GameNGen」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第62回)では、主要LLMでは制限がかかるような内容でも精度高く出力できるローカルLLM「Command R+」の最新バージョンや、論文などのドキュメントとチャットできるAIインタフェース「kotaemon」を取り上げます。

NVIDIA他、長い動画を理解する視覚言語モデル『LongVILA』開発・画像とテキストを1つのモデルで統一する『Show-o』など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

NVIDIA他、長い動画を理解する視覚言語モデル『LongVILA』開発・画像とテキストを1つのモデルで統一する『Show-o』など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

AIによる科学的発見を目指す「KAN 2.0」新星ニューラルネットワークアーキテクチャKANを科学に応用(生成AI論文ピックアップ) 画像
テクノロジー

AIによる科学的発見を目指す「KAN 2.0」新星ニューラルネットワークアーキテクチャKANを科学に応用(生成AI論文ピックアップ)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

Meta Reality Labs、人の画像から姿勢や立体形状を高精度に理解するビジョンモデル「Sapiens」発表。3億枚以上の画像で学習(生成AI論文ピックアップ) 画像
テクノロジー

Meta Reality Labs、人の画像から姿勢や立体形状を高精度に理解するビジョンモデル「Sapiens」発表。3億枚以上の画像で学習(生成AI論文ピックアップ)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

自律AIが自律AIを改良し続ける自動設計システム「ADAS」発表。手動設計を大幅に上回る性能 画像
テクノロジー

自律AIが自律AIを改良し続ける自動設計システム「ADAS」発表。手動設計を大幅に上回る性能

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第61回)では、AIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」や、NVIDIAの長時間動画を理解する「LongVILA」を取り上げます。

“2万単語”を一発生成する言語AI「LongWriter」、論文執筆や査読など科学研究全般を自動化する「The AI Scientist」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

“2万単語”を一発生成する言語AI「LongWriter」、論文執筆や査読など科学研究全般を自動化する「The AI Scientist」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第60回)では、2万語を一度に出力するモデル「LongWriter」、Googleの画像生成AI「Imagen 3」、そして科学研究を支援する「The AI Scientist」と「OpenResearcher」などを取り上げます。

Apple開発の画像生成AI「マトリョーシカ拡散モデル」、iPadでリアルタイムに動画を理解するGPT-4V超えAI「MiniCPM-V 2.6」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

Apple開発の画像生成AI「マトリョーシカ拡散モデル」、iPadでリアルタイムに動画を理解するGPT-4V超えAI「MiniCPM-V 2.6」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第59回)では、オープンソースの動画生成AI「CogVideoX」や、動画理解でGPT-4VやClaude 3.5 Sonnetなどを精度で上回るMLLM「MiniCPM-V 2.6」を取り上げます

元Stable Diffusion開発チームによる高性能画像生成AI「FLUX.1」、Perplexity精度のオープンソース検索AI「MindSearch」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

元Stable Diffusion開発チームによる高性能画像生成AI「FLUX.1」、Perplexity精度のオープンソース検索AI「MindSearch」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第58回)では、先日OpenAIが発表した「SearchGPT」など、Webのタイムリーな情報と大規模言語モデルを組みわせた検索AIのオープンソースモデル「MindSearch」や、Stability AIが発表した、単一の入力画像から3Dメッシュを0.5秒で生成する「Stable Fast 3D」を取り上げます。

AIが量産するデータで何度も学習するAIは「モデル崩壊」する研究結果、SD級の大型画像生成AIを「約29万円」「2.6日」の高コスパで訓練できるSonyAI開発「MicroDiT」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

AIが量産するデータで何度も学習するAIは「モデル崩壊」する研究結果、SD級の大型画像生成AIを「約29万円」「2.6日」の高コスパで訓練できるSonyAI開発「MicroDiT」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第57回)では、生成AIが生成したコンテンツを生成AIが学習し続けると性能低下が見られ、モデル崩壊が起きるという研究報告を取り上げます。また、Sony AIが大型の画像生成AI(11.6億パラメータ)の訓練を8台のNVIDIA H100 GPUを使用してわずか2.6日で完了し、しかもそれが約29万円という高いコストパフォーマンスを達成した手法「MicroDiT」をご紹介します。

AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第56回)では、AIとユーザーの対話内容を長期記録し、LLMの応答をそのユーザーにパーソナライズしていくメモリ機能「Mem0」や、音声の理解に優れている大規模言語モデル「Qwen2-Audio」などを取り上げます。

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。

他人の顔でYouTuber? 写真内の顔を思うように動かして話をさせるAI「LivePortrait」を動画生成AI「KLING」開発元が発表など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

他人の顔でYouTuber? 写真内の顔を思うように動かして話をさせるAI「LivePortrait」を動画生成AI「KLING」開発元が発表など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第54回)では、KLINGを開発した快手が、画像内のキャラクターの顔を自在に動かす技術「LivePortrait」を発表しました。

AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。

プロ作成モデルに匹敵する写真1枚→3Dモデル生成「Unique3D」、アーティストが丁寧に作ったようなポリゴンメッシュ生成「MeshAnything」など生成AI技術5つを解説(生成AIウィークリー) 画像
テクノロジー

プロ作成モデルに匹敵する写真1枚→3Dモデル生成「Unique3D」、アーティストが丁寧に作ったようなポリゴンメッシュ生成「MeshAnything」など生成AI技術5つを解説(生成AIウィークリー)

この1週間の気になる生成AI技術をピックアップして解説する、生成AIウィークリー(第52回)では、オープンソースで成長する動画生成AI「Open-Sora」の新バージョンや、精度の伸び代が見込まれるAIによる3Dメッシュ生成分野から「Unique3D」と「MeshAnything」を取り上げます。

画像内キャラに楽曲を歌わせる「Hallo」、“行列の掛け算なし”にLLMの開発が可能な「MatMul-Free LM」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

画像内キャラに楽曲を歌わせる「Hallo」、“行列の掛け算なし”にLLMの開発が可能な「MatMul-Free LM」など重要論文5本を解説(生成AIウィークリー)

第51回の生成AIウィークリーでは、この1週間の興味深い生成AIに関する研究論文をピックアップし、解説します。特に注目したいのは、大規模言語モデル(LLM)の開発において、常識とされている行列乗算を排除するという「MatMul-Free LM」です。この研究は、GitHubにおいて2000件(執筆現在)のStarを獲得しており、注目されています。

中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー) 画像
テクノロジー

中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー)

週次で生成AI関連技術5つを紹介する連載。中国のショート動画アプリ開発チーム「快手」が手がけるSoraに匹敵する動画生成AI「KLING」など。

動画AIが豊作。アニメ絵2枚の間の“中割り”を生成し映像化するAI「ToonCrafter」、画像内キャラを滑らかに踊らせるAI「MusePose」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

動画AIが豊作。アニメ絵2枚の間の“中割り”を生成し映像化するAI「ToonCrafter」、画像内キャラを滑らかに踊らせるAI「MusePose」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説する連載。今週は、アニメの“中割り”を生成してアニメーションに仕上げる「ToonCrafter」、1枚の画像とモーションデータからダンス動画を生成するAIモデル「MusePose」など。

“株”選びにGPT-4の利益予測は使えるのか? “文学作品”を翻訳する複数AIが働く出版社「TransAgents」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

“株”選びにGPT-4の利益予測は使えるのか? “文学作品”を翻訳する複数AIが働く出版社「TransAgents」など重要論文5本を解説(生成AIウィークリー)

生成AIに関する重要論文を解説する連載。今回は、“文学作品”を翻訳する実際の出版社を真似たAI会社「TransAgents」、GPT-4で企業の財務諸表を分析し将来の利益を予測……など5本。

Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

Pythonのように書けてGPU上で並列処理できる新プログラミング言語「Bend」、2D画像→3Dを高精度生成するGoogle「CAT3D」など重要論文5本を解説(生成AIウィークリー)

1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。今回は、GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」、大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査などを紹介。

Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説する連載。Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など。

AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

AIの新星ニューラルネットワーク「KAN」とは? LLMが“カンニング”して評価を盛ってた? など重要論文5本を解説(生成AIウィークリー)

最新の生成AI重要論文を紹介する連載。今回は、AIの新星ニューラルネットワーク「KAN」、LLMが“カンニング”して評価を盛っていた問題など5本。

自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIを発表など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIを発表など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説する連載。今回は、自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIなど。

AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー)

オープンソースLLMで大きな動き。MetaがLlama 3を発表したのと同時期に、AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」を公開。重要論文5本を解説します。

iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

iPhoneとAndroidのUIを理解するAppleの言語モデル「Ferret-UI」、AI生成の“誤ったコード”を自律修正するAI「AutoCodeRover」など重要論文5本を解説(生成AIウィークリー)

今週の生成AI重要論文は、AIが生成した“誤ったコード”を自律修正するAI「AutoCodeRover」、iPhoneのUIを理解するAppleの言語モデル「Ferret-UI」など。

GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

GPT-4超え精度でスマホ上実行できるオンデバイス生成AI「Octopus v2」、Google「生成AIは大きければいいってものではない」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説する連載。今回は、GPT-4越えで直接スマホ上で処理できるオンデバイス生成AI「Octopus v2」などを取り上げます。 

生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説(生成AIウィークリー)

生成AIに関する重要論文5本を解説する連載。今週は、生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など。

動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー)

先週発表された生成AI分野で重要な論文の中から5本を解説します。動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など。

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)

Appleは、高性能なMLLMを探るべく、モデルの構造や学習に使うデータの選び方がモデルの性能にどのように影響するかなどを詳しく分析した論文を公開しました。

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)

民生用GPUはNVIDIA RTX 4090の24GBメモリが最大ですが、これでLLMのファインチューニングは困難とされています。それを可能にするという技術が発表されました。

複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)

今週も、生成AIの重要論文5本を解説します。透明含む複数レイヤーを同時に画像生成できるAI「LayerDiffuse」、音楽を文字のように扱う音楽生成AI「ChatMusician」など。

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー)

今週の生成AIウィークリーは、AIの“パラメータ”を生成するAI「P-diff」、過去最高精度のリアルタイム物体検出器「YOLOv9」など重要論文5本を解説します。

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)

1週間分の生成AI関連論文の中から重要なものをピックアップする連載。今回は、Gemini 1.5、LoRA改良版、WindowsのAIエージェント、長時間動画にも対応するマルチモーダルAIなど5本を紹介します。