
アップル、iPhoneへの対話型AI「Gemini」導入をGoogleと協議中(Bloomberg報道)
アップルは、「今年iPhoneソフトウェアに搭載されるいくつかの新機能を強化」する目的のため、GoogleとGemini AIの使用に関する協議に入っている模様です。

Nothing Phone (2a)予約購入で、Claude 3 Opusも使えるAI対話型深堀り検索サービス「Perplexity Pro」1年無料コードを提供。19日まで
英Nothing Technologyは、Nothing Phone (2a) の予約購入者向けに、対話型AIサブスクリプション「Perplexity Pro」1年分の無料アクセスコードを提供すると発表しました。19日までに購入したユーザーを対象とするため、猶予はわずかです。コードの使用期限は4月30日まで。

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
Appleは、高性能なMLLMを探るべく、モデルの構造や学習に使うデータの選び方がモデルの性能にどのように影響するかなどを詳しく分析した論文を公開しました。

自律型AIソフトウェアエンジニア「Devin」発表。課題から情報収集して環境構築・ビルド・デプロイまで
AIスタートアップのCognitionが自律型のAIソフトウェアエンジニア「Devin」を発表した。Devinは人間と同様にコードエディタやコンソール、Webブラウザを用いて情報を参照し、コーディングやデバッグ作業を自律的に行える能力を持つようだ。

Google DeepMind、言葉の指示どおりゲームをプレイするAI「SIMA」発表。No Man's SkyやValheimで学習
Google DeepMindは、自然言語の指示に従ってゲーム内でタスクを実行するAIエージェント「Scalable Instructable Multiworld Agent(SIMA)」を発表しました。
DeepMindではゲームの世界を「現実の世界同様、常に変化する目標を備えた豊かな学習環境」と捉えており、様々なルールがあるゲームの中でゲームプレイを学習することによって、幅広い環境で役立つ「AIエージェント」の開発に役立つとしています。

Google I/O 2024は5月14日開催。AIやAndroid 15新情報、Pixel新製品に期待
Googleは開発者向け年次イベント「Google I/O」を、日本時間5月15日午前2時(現地時間5月14日午前10時)から開催します。

「生成AIグラビア実践ワークショップ」過去回アーカイブの販売を開始しました
人気連載「生成AIグラビアをグラビアカメラマンが作るとどうなる?」の著者である西川和久さんを講師に迎えたオンラインワークショップ「生成AIグラビア実践ワークショップ」過去回アーカイブの販売を開始しました。

NVIDIAのフアンCEO、AIの進歩でプログラミングや計算機科学教育は重要でなくなったと発言。自然言語がプログラミング言語に
NVIDIA CEOのJensen Huang氏はAIの進化で人間の言葉がプログラミング言語となり、プログラミング教育は重要ではなくなったとし、プログラミングやコンピュータサイエンス教育を重視する一般的な意見とは反対の立場を表明した。

Midjourney、生成した人物の特徴を維持する「Character Reference」機能を追加
画像生成AIサービスMidjourneyは、複数の生成画像で一貫性を持った人物画像の生成に対応する「Character Reference」機能のテストを開始しました。

ゲーム内の「村人のセリフ」をChatGPTで大量生成する方法(第2回)。データを大量に出力する
生成AIをゲーム開発の現場で活用している筆者が、ゲーム内テキストの作成、中でもいわゆるRPGの村人たちのセリフの生成を一から行う流れを解説します。第2回は、データを大量に作るところから改善すべき点まで。

4090でもLLMをゼロから事前学習できる手法「GaLore」、画面を見てトリプルAタイトルを完走できるAIなど重要論文5本を解説(生成AIウィークリー)
民生用GPUはNVIDIA RTX 4090の24GBメモリが最大ですが、これでLLMのファインチューニングは困難とされています。それを可能にするという技術が発表されました。

マイクロソフト、新型SurfaceとAIイベント「New Era of Work」3月22日深夜開催。CopilotやWindowsの最新情報
マイクロソフトは、米国太平洋夏時間3月21日午前9時(日本時間の22日午前1時)からSurface製品やWindows、Copilotのオンラインイベントを開催することを発表しました。

「GPTs」で自分向け推敲支援機能を作ってみる(西田宗千佳)
ChatGPTの機能を使い、「自分向けの推敲支援機能」を作ってみた。

「春はあけぼの、YOYO白くなりゆく」をSuno AI作曲でラップにしてみた。清少納言が現代に生きていたら枕草子をどう歌っただろう(CloseBox)
NHK大河ドラマ「光る君に」を楽しんで視聴しています。紫式部と清少納言が初めて出会ったときのバチバチ感はスリリングでした。

離れていても給電できる技術の開発進む。ワイヤレス充電はスマホからIoT、そしてAIへ(山根康宏)
2024年は新しいワイヤレス充電規格「Qi2」に対応した製品の登場で、スマートフォンの充電がより簡単になりそうです。Qi2はアップルのMagSafeをベースにした規格でもあり、Qi2対応のAndroidスマートフォンが出てくればiPhoneとワイヤレス充電器の共用も可能になります。2024年1月にラスベガスで開催されたCES 2024でもQi2対応ワイヤレス充電台などが展示されていました。

ゲーム内の「村人のセリフ」をChatGPTで大量生成する方法(第1回)。RPG村人が住む世界を作るまで
ChatGPTがこれほど広く雑多な目的に適用できるのは未だ驚きです。このままいわゆるAGIに到達する道にあるのか、規制や資源の問題はどうなるのか、未来への関心は尽きませんが目の前の実用も重要です。

複数画像レイヤー同時生成できるAI「LayerDiffuse」、MML対応音楽生成AI「ChatMusician」、高性能なリップシンクAI「EMO」など重要論文5本を解説(生成AIウィークリー)
今週も、生成AIの重要論文5本を解説します。透明含む複数レイヤーを同時に画像生成できるAI「LayerDiffuse」、音楽を文字のように扱う音楽生成AI「ChatMusician」など。

Google GeminiとStack Overflowのナレッジが統合。Stack Overflowは生成AI新サービスを提供
Google CloudとStack Overflowは戦略提携を発表しました。両社は最新AIモデルのGeminiとStack Overflowのナレッジを統合したサービスをそれぞれのプラットフォームで提供する予定です。

全てAIで生成した架空アルバムのバンドに架空ライターがインタビューした結果、新曲が生まれた。Suno AIがおもしろすぎる(CloseBox)
インタビューの中で勝手に次のシングルについて語っていたので、その曲をAIに作ってもらいましたが、余計な詳細を語っていたので苦労したという話。

マッチングサービスとAIと電話の関係(CloseBox)
生涯のパートナーとなる人とはどうしたら会えるのか。現在の日本では、結婚に至った人の4分の1近くがマッチングアプリを経由したものだという統計があります。

多視点3Dディスプレイ「Looking Glass Go」用に写真を立体化、AIによる単眼深度推定の方法と課題を解説
裸眼立体視ディスプレイをコンパクトにしたLooking Glass Goがついにユーザーの元に届きます。それに備えて、単眼深度推定を行うための方法をまとめました。

Apple Car開発プロジェクト中止か。AIに資源集中のためとBloomberg報じる
アップルが、Project Titanと呼ばれた自社製電気自動車開発プロジェクトを中止し、チームはAIの開発のために再配置されていると報じられています。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第19回:ComfyUIで最新のStable Cascadeを試す+アナログ風の後処理ProPost (西川和久)
前回標準のWorkflowにLoRAを追加してみたが、今回は画像が出来た後、つまり後処理用のNodeを追加してみたい。

生成AIおじさんをおじさん好きが作るとどうなる?(第2回) なぜおじさんを生成するのか
今回は、なぜおじさんをAIで生成するのか、そこから何を得たいのか、その理由について語ります。

音楽含むマルチモーダルAIモデル「AnyGPT」、AIの“パラメータ”を生成するAI「P-diff」など重要論文5本を解説(生成AIウィークリー)
今週の生成AIウィークリーは、AIの“パラメータ”を生成するAI「P-diff」、過去最高精度のリアルタイム物体検出器「YOLOv9」など重要論文5本を解説します。

Google、企業向け生成AI『Gemini for Google Workspace』提供開始。GmailやDocs、シート等をAIがアシスト
Googleは2月21日(現地時間)、Google WorkspaceユーザーがGmailやドキュメント、スライド、スプレッドシート、MeetでGeminiを利用できるGemini for Google Workspaceの提供を開始しました。

GoogleのGemini AI、多様性に配慮して「黒人ナチスドイツ兵士」や「米国建国を率いた黒人政治家」画像を生成してしまう。改善に取り組むと声明
Googleの生成AIであるGeminiが、多様性に配慮するあまり「1943年のドイツ軍兵士の画像を作って」に対してナチスドイツ風軍装の黒人男性やアジア人女性の画像を生成してしまい、Googleは歴史的に不正確だったと認める声明を発表するできごとがありました。

Adobeも独自AIアシスタント、PDF文書の要約・質問回答・作成を手伝い。AcrobatとAcrobat Readerに無料ベータ提供
マイクロソフトがWindowsやOfficeに生成AIアシスタントCopilotを組み込み、Googleも独自AIのBard改めGeminiで検索からGmail・カレンダー・マップ等々をこれまでになく使いやすくすると宣言する状況に、従来からAIに注力してきたAdobe が黙っているわけはありません。

天の川銀河の中心を指し示すiPhoneアプリ『Galactic Compass』公開。開発者はChatGPTの助けを借りて制作
デザイナーのマット・ウェッブ氏は先週木曜日、天の川銀河の中心を矢印で指し示す、無料のiPhone向けARアプリ『Galactic Compass』をApp Storeに公開しました。

Google、AIでファイル種類を高速正確に判別する「Magika」をオープンソース公開
AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をGoogleがオープンソースで公開。

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップする連載。今回は、Gemini 1.5、LoRA改良版、WindowsのAIエージェント、長時間動画にも対応するマルチモーダルAIなど5本を紹介します。

マルチモーダルAIメガネ『Frame』詳細。39gにOLED画面とカメラ搭載、見たものを翻訳やナビなど。4月出荷で予約受付中
シンガポールのAIデバイス企業 Brilliant Labs が、メガネ型端末「Frame」を発表しました。

OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか
OpenAIから新しい動画生成モデル「Sora」が発表され、合わせて技術レポートも公開されました。Soraはテキストから最長1分の動画を生成できるモデルで、画像から動画の生成や動画の補完も可能。作例を見る限り、現在公開されているどの動画生成モデルよりも優れています。

Slack AI提供開始、長いスレッド要約や会話で検索など。まずはEnterpriseプラン有料アドオンから、日本では4月予定
Slackは2月14日(現地時間)、2023年に予告していた生成AI機能「Slack AI」の一般提供を米国と英国にて開始したと発表しました。

生成AIグラビアをグラビアカメラマンが作るとどうなる?第18回:バレンタイン編。ComfyUIの環境を整える (西川和久)
グラビアカメラマンでありソフトウェアエンジニアでもある西川和久氏による生成AI
グラビア実践講座 第18回をお届けします

複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」など重要論文5本を解説(生成AIウィークリー)
複数の同一人物を同時に量産できるNVIDIAの画像生成AI「ConsiStory」、Gemini UltraやGPT-4に匹敵する数学特化のオープンソース言語モデル「DeepSeekMath」などを解説します。

生成AIで大統領候補のフェイク画像作成、Midjourneyが禁止検討。トランプおよびバイデン両氏を含む
Midjourneyは今後1年間、同社の人工知能ソフトウェアを使って政治的な画像を作成すること、特にジョー・バイデン氏とドナルド・トランプ氏の画像生成を禁止することを検討しています。

Google One加入者数が1億人を突破、ピチャイCEOが発表。Gemini AI機能追加で加入者増を狙う
米Googleのスンダー・ピチャイCEOは、同社の有料クラウドストレージサービス「Google One」の加入者が1億人を突破したことを発表しました。

Google最高峰AIモデル「Gemini Ultra」解禁。月額2900円のGoogle One新プラン「AIプレミアム」で提供開始
Googleは新開発したAIモデルの最高峰「Gemini Ultra」の提供を開始しました。また、対話型AIサービスの名前を「Bard」から「Gemini」に変更します。

アップル、文章で画像を編集するAIモデル「MGIE」開発。GitHubにオープンソース公開
アップルの研究者らが、入力した文章によって画像を編集できるAIモデル「MGIE」を発表、公開しました。MGIEとはMLLM-Guided Image Editingの略で、テキストベースのコマンドを解釈するマルチモーダル大規模言語モデル(MLLM)を使用しています。

米Amazonがショッピング向けAIアシスタント「Rufus」発表。製品カタログやレビューなどをもとに買い物をサポート
米Amazonは2月2日(現地時間)、ショッピング向けのAIアシスタント「Rufus」を発表しました。米国でAmazonのモバイルアプリを利用する一部ユーザーに対してベータ版が提供開始されており、今後数週間のうちに米国のさらに多くのユーザーに展開されるとのことです。

スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)
iPhone 15 Proで0.2秒以内に高品質な512×512画像を生成することにGoogleが成功。生成AIに関する最新論文5本を解説します。