Generative AI

SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

SDXLでライブ映像をリアルタイム画像生成できる高速化ツール「LCM-LoRA」、GPT-4Vより良い結果も示す画像理解モデル「CogVLM」など重要論文5本を解説(生成AIウィークリー)

今回の生成AI論文紹介では、画像の生成、理解、対話といった分野での進歩がありました。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第12回:SDXL用ModelやLoRAをピックアップ+α版。寝転びポーズや「東京駅」で撮影など (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第12回:SDXL用ModelやLoRAをピックアップ+α版。寝転びポーズや「東京駅」で撮影など (西川和久)

前回、連載11回目はSD 1.5用のModelとLoRAを主にご紹介した。12回目の今回は予告どおり、次世代 Stable Diffusion として表現力が格段に向上した SDXL用のModelとLoRA、そして+αをご紹介したい。

AIプログラマーは24時間耐久プログラミングが好きなの? GPT4新機能にときめいたあなたは参加したいかも(CloseBox) 画像
テクノロジー

AIプログラマーは24時間耐久プログラミングが好きなの? GPT4新機能にときめいたあなたは参加したいかも(CloseBox)

AIの24時間ハッカソンの審査会を見てきたと思ったら、次の24時間耐久GPTハッカソンが開かれるという知らせが。

xAI、AIチャットボット「Grok」発表。Xのデータで学習、きわどい質問にユーモア交えて回答 画像
テクノロジー

xAI、AIチャットボット「Grok」発表。Xのデータで学習、きわどい質問にユーモア交えて回答

イーロン・マスクが設立したAIベンチャーxAIが、新しいAIチャットボット「Grok」を発表しました。xAIの声明によればGrokはマスク氏が所有するSNS、「X」からのデータで強化され、他社のAIチャットボットに比べ最新の情報に関する質問にも回答できるとされています。

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー)

その週の重要論文5本を解説する連載。今回は、OpenAIの文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで自分の声を別人の声に即時変換するモデル「LLVC」など。

スカーレット・ヨハンソン、AI生成フェイク広告に法的措置。似せた顔と声でアプリを宣伝 画像
テクノロジー

スカーレット・ヨハンソン、AI生成フェイク広告に法的措置。似せた顔と声でアプリを宣伝

俳優のスカーレット・ヨハンソンが、AI画像生成アプリ『Lisa AI: 90s Yearbook & Avatar』の広告にAI生成した自身の肖像と声が使われていることに対して法的措置を講じ、取り下げさせました。

ビートルズ最後の新曲「Now And Then」はどのように現代に復活したか。公式ドキュメンタリーで分かったAIの貢献(CloseBox) 画像
テクノロジー

ビートルズ最後の新曲「Now And Then」はどのように現代に復活したか。公式ドキュメンタリーで分かったAIの貢献(CloseBox)

ビートルズの「新曲」が11月3日に公開されます。その制作ドキュメンタリーが本日公開され、その曲の一部を聴くことができましたので、そこでどんなことが行われていたのかをまとめ

画像内キャラを3D変換する強力モデル「Zero123++」、文章から高品質3Dモデル生成するAI「DreamCraft3D」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

画像内キャラを3D変換する強力モデル「Zero123++」、文章から高品質3Dモデル生成するAI「DreamCraft3D」など重要論文5本を解説(生成AIウィークリー)

今回は3Dモデルで大きな躍進がありました。画像1枚から3Dモデルを高品質に生成する拡散モデル「Zero123++」をはじめとする、生成AI最新論文の概要5つをお届けします。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第11回:Stable Diffusion 1.5の注目ModelやLoRAを紹介+α版 (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第11回:Stable Diffusion 1.5の注目ModelやLoRAを紹介+α版 (西川和久)

ここのところ、生成AI画像環境構築やアプリの使い方などで3回、顔LoRA制作…と少し重いネタが続いたので、今回は軽めの気になるModelやLoRAを作例と共にご紹介したい。

ベートーヴェンやクレオパトラなど、偉人になりきるAI「Character-LLM」、“グリグリ動かせる3Dシーン”をリアルタイム生成する「4D Gaussian Splatting」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

ベートーヴェンやクレオパトラなど、偉人になりきるAI「Character-LLM」、“グリグリ動かせる3Dシーン”をリアルタイム生成する「4D Gaussian Splatting」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5つを紹介する連載。今回はWeb上のサービスを言語指示でフル活用できるChrome拡張機能を用いたAI「OpenAgents」、偉人を完コピするAI「Character-LLM」など。

Python互換言語「Mojo」、Appleシリコンにネイティブ対応したMac版が公開。Pythonの9万倍、C言語に比肩する高速性 画像
テクノロジー

Python互換言語「Mojo」、Appleシリコンにネイティブ対応したMac版が公開。Pythonの9万倍、C言語に比肩する高速性

今回のAppleシリコンにネイティブ対応したMac版のリリースは、Linux版に続くもの。Windows版のリリース時期は未定です。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第十回:実在モデルからSDXL用顔LoRAを作る (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第十回:実在モデルからSDXL用顔LoRAを作る (西川和久)

Modelに無い顔や彼女の顔を出したい!

Pythonの高速スーパーセット「Mojo」がAppleシリコン搭載Macに対応間近。Windowsより先に 画像
テクノロジー

Pythonの高速スーパーセット「Mojo」がAppleシリコン搭載Macに対応間近。Windowsより先に

Pythonのスーパーセット言語として注目されているMojoは現在Linux版のみ。次はWindows版ではなくMac版になりそうだ。

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー) 画像
テクノロジー

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー)

アップルらが開発したMultimodal Large Language Modelの「Ferret」など、5本の生成AI関連論文を紹介します。

Google検索で直接AIによる画像生成が可能に。米国のSGE登録ユーザー対象 画像
テクノロジー

Google検索で直接AIによる画像生成が可能に。米国のSGE登録ユーザー対象

Googleは8月30日より、Google Search labs登録ユーザーを対象に「生成AIによる検索体験(SGE)」の提供を開始していますが、10月12日にこの機能を拡張し、SGEにオプトインしたユーザーは、通常のGoogle検索バーからAIによる画像生成を行うことが可能になりました。

生成AI時代の新技術てんこ盛り。Adobe MAX 2023「Sneaks」を深掘りする(西田宗千佳) 画像
テクノロジー

生成AI時代の新技術てんこ盛り。Adobe MAX 2023「Sneaks」を深掘りする(西田宗千佳)

今年も、Adobeの年次イベント「Adobe MAX 2023」の取材で米ロサンゼルスに来ている。Adobeのイベントでは多数の新技術が発表になるが、やはり「華」でありハイライトは、開発途上の技術を先出しする「Sneaks」だ。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第九回:Fooocus-MREでimage-2-imageやControlNetを試す (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第九回:Fooocus-MREでimage-2-imageやControlNetを試す (西川和久)

■画像生成は出来たけど…何かもう一捻りしたい!

どんなに長い文章でも破綻しない生成AI「StreamingLLM」、キャラクターの性格や話し方を模倣するAIなど重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

どんなに長い文章でも破綻しない生成AI「StreamingLLM」、キャラクターの性格や話し方を模倣するAIなど重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文を解説する連載。今回は、大規模言語モデルでどんなに長い文章でも破綻しない手法、キャラクターの性格や話し方を模倣するAIなど紹介します。

Google、スマホ用マルチモーダル生成AI「アシスタント with Bard」発表。AndroidとiOS に試験提供 画像
テクノロジー

Google、スマホ用マルチモーダル生成AI「アシスタント with Bard」発表。AndroidとiOS に試験提供

Googleは、日本時間10月4日夜に開催されたMade By GoogleイベントでAndroidとiOS向けの「Assistant with Bard」を発表しました。

ロビン・ウィリアムズの娘ゼルダ、AI生成で再現された父の姿や声が「個人的に不快」と非難 画像
テクノロジー

ロビン・ウィリアムズの娘ゼルダ、AI生成で再現された父の姿や声が「個人的に不快」と非難

米国の女優・監督兼プロデューサー、ゼルダ・ウィリアムズ氏は、すでに亡くなった人の遺志を考慮することなくAIで再現したり、置き換えたりする試みに対して「個人的に不快だ」と述べています。

10倍高速に3Dモデル生成可能な「DreamGaussian」、ネット記事量産できる生成AI「InternLM-XComposer」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

10倍高速に3Dモデル生成可能な「DreamGaussian」、ネット記事量産できる生成AI「InternLM-XComposer」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説する連載。今回は、3Dモデルを高速生成する「DreamGaussian」、ネット記事量産AI「InternLM-XComposer」などです。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第八回:シンプルで高機能なSDXL専用インターフェースFooocusとFooocus-MREの使いかた (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第八回:シンプルで高機能なSDXL専用インターフェースFooocusとFooocus-MREの使いかた (西川和久)

Stable Diffusionを使う新たなインターフェース、Fooocusをご紹介したい。インストールはbat一発、起動/アップデートもbat一発、Modelも初期起動時に自動的にダウンロードと非常にシンプル。そしてなにより、出てくる絵が驚異的という優れたインターフェースなのだ。

Metaが28人の生成AIキャラクターを発表した理由。どこまでもFacebook的なAI戦略(本田雅一) 画像
テクノロジー

Metaが28人の生成AIキャラクターを発表した理由。どこまでもFacebook的なAI戦略(本田雅一)

「Meta Connect」という開発者向けイベントに参加した。なぜQuestシリーズに力を入れるのか、なぜAI技術に投資を行うのか。その答えの先には、常にSNSの存在がある。Metaにとっての生成AIとはコミュニケーションを円滑に行うための道具なのだ。

等身大3Dデジタルヒューマンを動かしてみたらインパクトでかかった(CloseBox) 画像
テクノロジー

等身大3Dデジタルヒューマンを動かしてみたらインパクトでかかった(CloseBox)

生成AIで学習して生成した顔写真を元に、3Dデジタルヒューマンを作成し、それを等身大のアニメーションにしてみました。

ハリウッドの脚本家組合、ストライキ終結に向け暫定合意。生成AIやストリーミングの収益分配を巡る交渉が決着へ 画像
テクノロジー

ハリウッドの脚本家組合、ストライキ終結に向け暫定合意。生成AIやストリーミングの収益分配を巡る交渉が決着へ

全米脚本家組合(WGA)は、生成AI使用の規制や動画ストリーミングからの報酬などに関し、大手スタジオとの間で約5か月にわたるストライキを終了させるための暫定的な合意に達したと発表しました。

ChatGPT、画像と音声使った会話が可能に。Plusユーザーはモバイルアプリでマルチモーダルに 画像
テクノロジー

ChatGPT、画像と音声使った会話が可能に。Plusユーザーはモバイルアプリでマルチモーダルに

OpenAIは9月25日、ChatGPTのバージョンアップを発表しました。今後2週間でロールアウトし、Plusプランのユーザーは、iOSとAndroidアプリではChatGPTと音声で会話することが可能になり、画像を含んだ会話ができるようになります。

実在の人物の3Dバーチャルヒューマン化、生成AIとの組み合わせでうまくいきそう(CloseBox) 画像
テクノロジー

実在の人物の3Dバーチャルヒューマン化、生成AIとの組み合わせでうまくいきそう(CloseBox)

生成AIを利用してバーチャルヒューマンを制作してみました。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第七回:自分で始める環境作りとお薦め機材 / AUTOMATIC1111を動かしてみる (西川和久) 画像
テクノロジー

生成AIグラビアをグラビアカメラマンが作るとどうなる?第七回:自分で始める環境作りとお薦め機材 / AUTOMATIC1111を動かしてみる (西川和久)

■生成AIグラビアを実際作るには!?

数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー)

生成AIの重要論文5本を解説。「数行のコードを足すだけ…」生成画像・動画の品質が向上「FreeU」、LLaMA2を10万トークンに低コストで増やす手法「LongLoRA」など。

Windows 11の「ペイント」大進化。26日に画像生成AIや背景除去、レイヤー機能を含むアップデート配信 画像
ガジェット

Windows 11の「ペイント」大進化。26日に画像生成AIや背景除去、レイヤー機能を含むアップデート配信

米マイクロソフトは9月21日(現地時間)に開催したスペシャルイベントで、26日にWindows 11の最新アップデートを実施すると発表しました。

AI画像生成ツール「DALL・E 3」発表。ChatGPTとの統合で対話的に生成し、プロンプトの理解度向上も 画像
テクノロジー

AI画像生成ツール「DALL・E 3」発表。ChatGPTとの統合で対話的に生成し、プロンプトの理解度向上も

OpenAIが、AI画像生成ツールの新バージョン「DALL・E 3」を発表しました。DALL・E 3は、入力したテキスト文を従来より忠実に、生成するアートへ反映することが可能になっています。

“好きな人の声”のオーディオブックを電子書籍から作るAI、AI画像を超高速生成する「InstaFlow」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

“好きな人の声”のオーディオブックを電子書籍から作るAI、AI画像を超高速生成する「InstaFlow」など重要論文5本を解説(生成AIウィークリー)

生成AIの注目すべき論文を解説する連載。今週は、マイクロソフトによる、“好きな人の声”のオーディオブックを電子書籍から作るAI、0.09秒で画像を生成するAI「InstaFlow」など。

Photoshopに心から感謝を。生成AI「Firefly」が大事な1枚の写真を甦らせてくれました(CloseBox) 画像
テクノロジー

Photoshopに心から感謝を。生成AI「Firefly」が大事な1枚の写真を甦らせてくれました(CloseBox)

この写真は部分的に欠けているけど、残りを見たい。そんな大事な写真をお持ちの方は、Photoshopを使うといいです。

Stable Diffusion開発元によるAI音楽生成サービス「Stable Audio」の可能性(CloseBox) 画像
テクノロジー

Stable Diffusion開発元によるAI音楽生成サービス「Stable Audio」の可能性(CloseBox)

Stable Audioという新しい生成AIサービスが始まりました。さっそく使ってみました。

Adobe、無料ですぐ使える画像生成AI『Firefly』ウェブ版提供開始。Photoshopの「生成塗りつぶし」「生成拡張」も。権利クリア画像で学習 画像
テクノロジー

Adobe、無料ですぐ使える画像生成AI『Firefly』ウェブ版提供開始。Photoshopの「生成塗りつぶし」「生成拡張」も。権利クリア画像で学習

Adobeが独自の画像生成AI『Firefly』の正式提供を開始しました。

忘れられない人とのデュエットが、映像でも。それを実現してくれたAIサービス「HeyGen」のさらなる野望(CloseBox) 画像
テクノロジー

忘れられない人とのデュエットが、映像でも。それを実現してくれたAIサービス「HeyGen」のさらなる野望(CloseBox)

静止画とオーディオがあればリップシンクができる動画技術を使い、長年の夢を実現しました。その一方で、ディープフェイク悪用の可能性がある技術も登場しています。

生成AIに高校スポーツ記事を書かせた大手新聞社、誤りや品質の苦情続き一時取り下げ。所属記者も「掲載すべきでなかった」と発言 画像
テクノロジー

生成AIに高校スポーツ記事を書かせた大手新聞社、誤りや品質の苦情続き一時取り下げ。所属記者も「掲載すべきでなかった」と発言

米国の新聞社Gannettは8月、AIが生成した地域の高校スポーツ大会の結果を伝える複数の記事が、非常に不自然な文章構成になっていたり、誤りや文章生成に失敗していると読者から指摘され問題化したのを受け、該当する記事のチェックと更新を行っています。

“最適化”した回答を出すGoogleの言語モデル「OPRO」、3D都市を無制限に生成するAI「CityDreamer」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

“最適化”した回答を出すGoogleの言語モデル「OPRO」、3D都市を無制限に生成するAI「CityDreamer」など重要論文5本を解説(生成AIウィークリー)

1週間分のAI論文をまとめる生成AIウィークリーは、“最適化”した回答を出すGoogleの言語モデル「OPRO」、無制限に3D都市を生成するAI「CityDreamer」など重要論文5本を解説しています。

妻の歌声を合成して10年が経って、本人不在のミュージックビデオがAIでこんな感じになりました(CloseBox) 画像
テクノロジー

妻の歌声を合成して10年が経って、本人不在のミュージックビデオがAIでこんな感じになりました(CloseBox)

9月はいろいろ個人的なイベントがあります。自分の誕生日と、その前日の結婚記念日がまずあって、まあそれはもう誰も祝う人がいないので一人でケーキを買ってきたり英国リバプールの郷土料理であるスカウスを、クックパッドに残された妻のレシピで作ったりしています。

1本50円で外注できるAIソフトウェア開発環境「ChatDEV」、人の声を理解する言語モデル「LLaSM」など重要論文5本を解説(生成AIウィークリー) 画像
テクノロジー

1本50円で外注できるAIソフトウェア開発環境「ChatDEV」、人の声を理解する言語モデル「LLaSM」など重要論文5本を解説(生成AIウィークリー)

先週発表されたAI関連論文から、50円で外注できるAIソフトウェア開発会社「ChatDEV」、人の声を理解する言語モデル「LLaSM」など5本を解説します。

これが新しいAIググる体験か。Googleの生成AI検索「SGE」、日本語実験の現在地(Google Tales) 画像
テクノロジー

これが新しいAIググる体験か。Googleの生成AI検索「SGE」、日本語実験の現在地(Google Tales)

待望の「Search Generative Experience」が8月30日に日本とインドでも使えるようになりました。5月から使えていた米国以外で使えるようになったのは、今のところこの2カ国のみだそうです。

Google「Duet AI」サービス多数発表。Gmail代筆やMeet議事録、データ分析からコード生成まで全面採用(Google Cloud Next '23) 画像
テクノロジー

Google「Duet AI」サービス多数発表。Gmail代筆やMeet議事録、データ分析からコード生成まで全面採用(Google Cloud Next '23)

開催中のイベント「Google Cloud Next '23」で発表されたサービス群の刷新はAI「Duet AI」を冠したものだ。