山下裕毅(Seamless)の記事一覧(3ページ中3ページ目)

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー)

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」などを解説します。

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)

iPhone 15 Proで0.2秒以内に高品質な512×512画像を生成することにGoogleが成功。生成AIに関する最新論文5本を解説します。

Amazonが服の仮想試着AI「Diffuse to Choose」、画像内の物体分離指示できる「Grounded SAM」、動画の高品質な奥行き推定「Depth Anything」など重要論文6本を解説(生成AIウィークリー) 画像
テクノロジー

Amazonが服の仮想試着AI「Diffuse to Choose」、画像内の物体分離指示できる「Grounded SAM」、動画の高品質な奥行き推定「Depth Anything」など重要論文6本を解説(生成AIウィークリー)

今回の生成AI論文解説はいつもより1本多い、6本分です。中でもAmazonのバーチャル試着技術は実用性が高そうです。

GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー)

PhotoMakerのライバルともいうべき技術やAppleのLLMなど、生成AI最新論文の概要5つを紹介します。

Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説(生成AIウィークリー) 画像
テクノロジー

Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説(生成AIウィークリー)

今回は生成AI論文解説に加え、2つの興味深い実装も紹介しています。

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー)

感情を含む細かい表現が可能なAIボイスクローン技術「OpenVoice」など、生成AI最新論文の概要5つをお届けします。

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー)

「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの生成AI論文を紹介します。

毎秒100枚の画像を高速生成できる「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIA開発「AYG」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

毎秒100枚の画像を高速生成できる「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIA開発「AYG」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本解説する連載。今回は、毎秒100枚という画像高速生成できると話題を呼んだ「StreamDiffusion」、文章指示で複数の動く3Dキャラを生成するNVIDIAの4Dアニメーションツール「AYG」などを紹介しています。

「Suno」と一味違う音楽生成AI登場。音楽から新しい音楽をパート毎に生成「StemGen」、着せ替えAI「Outfit Anyone」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

「Suno」と一味違う音楽生成AI登場。音楽から新しい音楽をパート毎に生成「StemGen」、着せ替えAI「Outfit Anyone」など重要論文5本を解説(生成AIウィークリー)

音楽生成に新たな展開が。Music to Musicによる生成をパートごとに出せる技術が登場しています。生成AIに関する論文5つを紹介します。

写真内の奥行きを推定する「Marigold」、言語に頼らず画像理解する「Large Vision Model」、数分間の高品質ビデオ作成する「Vchitect」など重要論文6本を解説(生成AIウィークリー) 画像
テクノロジー

写真内の奥行きを推定する「Marigold」、言語に頼らず画像理解する「Large Vision Model」、数分間の高品質ビデオ作成する「Vchitect」など重要論文6本を解説(生成AIウィークリー)

今週は重要論文が多くて6本です。画像の深度情報を推定する技術を大幅に進化させた「Marigold」などの生成AIの最新情報をお届けします。

画像内のキャラを思うがままに抜群の精度で動かせる「Animate Anyone」、話した声をすぐに翻訳するMeta「Seamless」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

画像内のキャラを思うがままに抜群の精度で動かせる「Animate Anyone」、話した声をすぐに翻訳するMeta「Seamless」など重要論文5本を解説(生成AIウィークリー)

先週大きな話題となった、画像内のキャラクターや写真内の人物を骨格動画に応じて動かせる「Animate Anyone」など5本の生成AI論文を紹介。

AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー)

発表以来大きな話題となっている、Stability AIの動画生成AIモデルなど、5本の生成AI論文を解説。

入力テキストを実写アバターに話させるツールをMicrosoftが発表、擬人化キャラの外見や性格を文章で作り出す「ChatAnything」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

入力テキストを実写アバターに話させるツールをMicrosoftが発表、擬人化キャラの外見や性格を文章で作り出す「ChatAnything」など重要論文5本を解説(生成AIウィークリー)

生成AIの最新トレンドを追いかける連載。今回は入力テキストを実写アバターに話させるツール、擬人化キャラの外見や性格を文章で作り出す技術など重要論文5本を解説します。

SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー)

今回の生成AI論文紹介では、画像の生成、理解、対話といった分野での進歩がありました。

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー)

その週の重要論文5本を解説する連載。今回は、OpenAIの文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで自分の声を別人の声に即時変換するモデル「LLVC」など。

画像内キャラを3D変換する強力モデル「Zero123++」、文章から高品質3Dモデル生成するAI「DreamCraft3D」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

画像内キャラを3D変換する強力モデル「Zero123++」、文章から高品質3Dモデル生成するAI「DreamCraft3D」など重要論文5本を解説(生成AIウィークリー)

今回は3Dモデルで大きな躍進がありました。画像1枚から3Dモデルを高品質に生成する拡散モデル「Zero123++」をはじめとする、生成AI最新論文の概要5つをお届けします。

ベートーヴェンやクレオパトラなど、偉人になりきるAI「Character-LLM」、“グリグリ動かせる3Dシーン”をリアルタイム生成する「4D Gaussian Splatting」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

ベートーヴェンやクレオパトラなど、偉人になりきるAI「Character-LLM」、“グリグリ動かせる3Dシーン”をリアルタイム生成する「4D Gaussian Splatting」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5つを紹介する連載。今回はWeb上のサービスを言語指示でフル活用できるChrome拡張機能を用いたAI「OpenAgents」、偉人を完コピするAI「Character-LLM」など。

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー) 画像
テクノロジー

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー)

アップルらが開発したMultimodal Large Language Modelの「Ferret」など、5本の生成AI関連論文を紹介します。

どんなに長い文章でも破綻しない生成AI「StreamingLLM」、キャラクターの性格や話し方を模倣するAIなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

どんなに長い文章でも破綻しない生成AI「StreamingLLM」、キャラクターの性格や話し方を模倣するAIなど重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文を解説する連載。今回は、大規模言語モデルでどんなに長い文章でも破綻しない手法、キャラクターの性格や話し方を模倣するAIなど紹介します。

10倍高速に3Dモデル生成可能な「DreamGaussian」、ネット記事量産できる生成AI「InternLM-XComposer」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

10倍高速に3Dモデル生成可能な「DreamGaussian」、ネット記事量産できる生成AI「InternLM-XComposer」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説する連載。今回は、3Dモデルを高速生成する「DreamGaussian」、ネット記事量産AI「InternLM-XComposer」などです。

数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説。「数行のコードを足すだけ…」生成画像・動画の品質が向上「FreeU」、LLaMA2を10万トークンに低コストで増やす手法「LongLoRA」など。

“好きな人の声”のオーディオブックを電子書籍から作るAI、AI画像を超高速生成する「InstaFlow」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

“好きな人の声”のオーディオブックを電子書籍から作るAI、AI画像を超高速生成する「InstaFlow」など重要論文5本を解説(生成AIウィークリー)

生成AIの注目すべき論文を解説する連載。今週は、マイクロソフトによる、“好きな人の声”のオーディオブックを電子書籍から作るAI、0.09秒で画像を生成するAI「InstaFlow」など。

“最適化”した回答を出すGoogleの言語モデル「OPRO」、3D都市を無制限に生成するAI「CityDreamer」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

“最適化”した回答を出すGoogleの言語モデル「OPRO」、3D都市を無制限に生成するAI「CityDreamer」など重要論文5本を解説(生成AIウィークリー)

1週間分のAI論文をまとめる生成AIウィークリーは、“最適化”した回答を出すGoogleの言語モデル「OPRO」、無制限に3D都市を生成するAI「CityDreamer」など重要論文5本を解説しています。

1本50円で外注できるAIソフトウェア開発環境「ChatDEV」、人の声を理解する言語モデル「LLaSM」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

1本50円で外注できるAIソフトウェア開発環境「ChatDEV」、人の声を理解する言語モデル「LLaSM」など重要論文5本を解説(生成AIウィークリー)

先週発表されたAI関連論文から、50円で外注できるAIソフトウェア開発会社「ChatDEV」、人の声を理解する言語モデル「LLaSM」など5本を解説します。

Metaが文章と音声を翻訳するオールインワンAI「SeamlessM4T」、コード専用生成AI「Code Llama」を投入するなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

Metaが文章と音声を翻訳するオールインワンAI「SeamlessM4T」、コード専用生成AI「Code Llama」を投入するなど重要論文5本を解説(生成AIウィークリー)

Metaが文章と音声を翻訳するAI「SeamlessM4T」、コード専用生成AI「Code Llama」投入するなど、生成AIに関する重要論文5本を解説します。

好きな人の声で好きな文章を読ませるMicrosoftの音声AI「SpeechX」、映像から3Dシーンを生成するNVIDIA開発「Neuralangelo」のコード公開など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

好きな人の声で好きな文章を読ませるMicrosoftの音声AI「SpeechX」、映像から3Dシーンを生成するNVIDIA開発「Neuralangelo」のコード公開など重要論文5本を解説(生成AIウィークリー)

今週の生成AI注目論文は、任意の人の音声を合成できるマイクロソフトのText-to-Speechモデルなど5本です。

25体の自律AIが住む街がオープンソース化、チラつき抑えた動画合成を生成するAI「DiffSynth」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

25体の自律AIが住む街がオープンソース化、チラつき抑えた動画合成を生成するAI「DiffSynth」など重要論文5本を解説(生成AIウィークリー)

1週間分の生成AI主要論文を紹介する連載。今回は、25体の自律AIが住む町、“ちらつき”を抑えた動画合成を生成するAIなど。

盗作を回避する音楽生成AI「MusicLDM」、AIたちが協力しゲーム開発する「MetaGPT」、など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

盗作を回避する音楽生成AI「MusicLDM」、AIたちが協力しゲーム開発する「MetaGPT」、など重要論文5本を解説(生成AIウィークリー)

盗作をできるだけ避けて音楽生成するAI、複数のLLMが協力してソフトウェア開発を行うフレームワークなど、最新のAI論文5つを紹介します。

「ラブコメのラジオドラマを書いて」で自動生成するAI「WavJourney」、複数回の対話で画像生成できる「LLM-grounded Diffusion」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

「ラブコメのラジオドラマを書いて」で自動生成するAI「WavJourney」、複数回の対話で画像生成できる「LLM-grounded Diffusion」など重要論文5本を解説(生成AIウィークリー)

ラジオドラマの番組を自動生成できる大規模言語モデルなど、最新の生成AI関連の重要論文を5本、紹介します。

自称Transformer後継モデル「RetNet」マイクロソフトら開発、脳活動から音楽を生成するAI「Brain2Music」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

自称Transformer後継モデル「RetNet」マイクロソフトら開発、脳活動から音楽を生成するAI「Brain2Music」など重要論文5本を解説(生成AIウィークリー)

Transformerより学習速度が速く、低遅延で、メモリ効率にも優れ、同等性能以上の精度を示すという「Transformerの後継モデル」をマイクロソフトらが発表しました。

1枚の静止画から動画作成する「AnimateDiff」、Googleの画像学習改良版「HyperDreamBooth」など5本の重要論文を解説(生成AIウィークリー) 画像
テクノロジー

1枚の静止画から動画作成する「AnimateDiff」、Googleの画像学習改良版「HyperDreamBooth」など5本の重要論文を解説(生成AIウィークリー)

人物画像などの学習によく使われているDreamBoothを、開発元であるGoogleがさらに高速化。静止画1枚から一貫性のあるアニメーションを制作する手法など、最新論文から生成AIの重要技術5つを紹介。

10億トークンを処理できるマイクロソフトの言語生成AI「LongNet」、喉のMRIからAI音声合成など5つの重要論文を解説(生成AIウィークリー) 画像
テクノロジー

10億トークンを処理できるマイクロソフトの言語生成AI「LongNet」、喉のMRIからAI音声合成など5つの重要論文を解説(生成AIウィークリー)

毎週月曜日に、前週の重要な生成AI論文をピックアップする連載。第2回は、トークン数を10億にまで拡張できるAIモデルなどをセレクトして解説します。

「毎日がゲームチェンジャー」の生成AI時代を生き抜くために、1週間分の重要論文をまとめました(新連載・生成AIウィークリー) 画像
テクノロジー

「毎日がゲームチェンジャー」の生成AI時代を生き抜くために、1週間分の重要論文をまとめました(新連載・生成AIウィークリー)

1週間分の生成AIに関する重要論文をピックアップして、解説する新連載を、ここにスタートします。

  • 前へ
  • 117件中 85 - 117 件を表示