
ChatGPT 4oの画像生成でテキスト能力が上がったらしいので、手書き文字からロゴを生成してみた(CloseBox)
OpenAIがまたYouTubeライブで発表をしました。今回のモデルはChatGPT 4oと、いささか古いのですが、その画像生成についての進展がテーマです。

PDF100万ページのテキストをたった190ドルで読み取れる「olmOCR」、アリババがDeepSeek-R1同等の「QwQ-32B」を強化したAI「START」発表など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第86回)では、大規模言語モデル「QwQ-32B」を改良した「START」や、PDFからのテキスト抽出が安く高品質にできるツール「olmOCR」などを取り上げます。

招待コードが高額取引されてる新星AIエージェント「Manus」、OpenAI deep research超えの性能示す(生成AIクローズアップ)
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、3月5日にリリースされ中国で話題になっているAIエージェント「Manus」に注目します。

LLMを画面操作AIに変換するMicrosoft開発「OmniParser V2」、Claudeでやり取りした数百万件の内部データを活用したAIが労働市場に与える影響調査、ByteDanceの新動画生成AI「Goku」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第83回)では、大規模言語モデル(LLM)を画像操作できるAIエージェントに変換する「OmniParser V2」や、ByteDanceの画像や動画を生成する新しいAI「Goku」を取り上げます。

OpanAI「o3」が国際情報オリンピックで金メダル達成(18位相当)。競技プログラミングにおいて人間のトップ選手と同等レベル(生成AIクローズアップ)
コーディングで良好な成果を示しているOpenAIの「o3」が国際情報オリンピック(IOI)で金メダルを達成した研究報告「Competitive Programming with Large Reasoning Models」に注目します。

PerplexityがDeep Research提供開始。無料ユーザーでも1日5回、Proなら500回利用可能に。実際に試してみた(CloseBox)
統合型チャットAIサービスであるPerplexityが新サービスをリリースしました。「Deep Research」オプションの追加です。

ワープ、ハイパードライブ、無慣性航法からアルクビエレ・ドライブまで、超光速(FTL)移動技術に関するdeep research調査報告をベッドの中から作らせた(CloseBox)
超光速。FTL(Faster Than Light)とも呼ばれることがある、SFファンならおなじみの移動手段です。それに近い技術をどこかが開発したとか実現不可能だと分かったとか、断片的な報道がたまにされています。

生成AIのせいでプログラマーの仕事はなくなる? 「需要はむしろ増える」とティム・オライリー氏
オライリーメディアの創立者ティム・オライリー氏が、同社のブログに「The End of Programming as We Know It」(私たちが知っているプログラミングの終焉)という記事を公開しました。

ChatGPTがタメ口回答するようになった。AGIやってきたってこと? deep research調査の結論は(CloseBox)
ChatGPTの応答が昨日あたりからちょっとおかしいことに気づきました。馴れ馴れしすぎるのです。

読みたい分析記事がない? なら「deep research」に書かせればいいじゃない。OpenAIとGoogle Geminiにそれぞれ深掘り調査してもらった結果(CloseBox)
OpenAIがChatGPTの新機能としてdeep researchを投入しました。筆者が常日頃考えているテーマを深掘り検索してもらいました。同様の機能はGoogle Geminiもあるのでそちらにも同じ質問を投げました。

OpenAI「o3-mini-high」でゲーム生成祭り o1より高速、低料金、コーディング能力が高く気軽に生成(生成AIクローズアップ)
今回は、OpenAIが1月31日(現地時間)に発表した「o3-mini」を取り上げます。

OpenAIとマイクロソフト、DeepSeekがOpenAIのデータを「抽出」した証拠があると主張
OpenAIは、中国DeepSeekが同社のAIモデルを強化するために、OpenAIのデータを「抽出(Distrill)」した証拠を掴んだと主張しています。

複雑なタスクをブラウザでこなすOpenAIのAIエージェント「Operator」を使ってみてわかった限界点(CloseBox)
米国のChatGPT Proユーザーのみに開放されているOpenAIのAIエージェント「Operator」を試してみました。

OpenAI、ブラウザ操るAIエージェント「Operator」を発表。ユーザーの代わりに複雑なタスクを処理し、ユーザーの介入も可能
OpenAIは1月23日(米国時間)、ユーザーの代わりにブラウザを操作してタスクを実行するAIエージェント「Operator」を発表しました。

アイディアを入力するだけ、自律AIたちが調査→実験→論文執筆の研究全般を行うAMD開発「Agent Laboratory」、音声に応じて自然な口パクを生成する動画AI「LatentSync」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第78回)では、自律AIたちが研究プロセス全般を自動で実行するモデル「Agent Laboratory」、ロボットや自動運転車などの物理AI向けデジタル環境学習プラットフォーム「Cosmos」を取り上げます。

ChatGPTで動作するセントリーガンを作った男、OpenAIにAPIアクセスを遮断される
OpenAIは、ChatGPTの音声コマンドを利用して動作する電動セントリーガン(全自動回転砲塔)を開発する様子をSNSに投稿していたユーザーのAPIアクセスを遮断したと発表しました。

92万字の大作小説をChatGPT o1 pro modeに書かせたら、罪悪感でいっぱい。そして驚愕の結末に(CloseBox)
最近、AIに小説を書いてもらっています。

OpenAI「o3」は本当に“AGI”に近いのか? AGIレベルを評価する「ARC-AGI」の開発者が解説(生成AIクローズアップ)
OpenAIが最近発表したAIモデル「o3」と汎用人工知能(AGI)について、AGIの性能を評価するベンチマーク「ARC-AGI」の開発者フランソワ・ショレ氏(Googleの研究者)が考察した記事に注目します。

MicrosoftのGPT-4o超え小型言語AI「Phi-4」、カメラ越しの現実をリアルタイムに理解するオープンソースAI「IXC2.5-OL」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第75回)では、Microsoftの新しい言語モデル「Phi-4」や、カメラ越しに映る現実をリアルタイムに理解するAIモデル「IXC2.5-OL」を取り上げます。

VOCALOID発売から20年。ChatGPTに歌声合成の歴史をまとめてもらった(CloseBox)
VOCALOIDが発売から20年を迎え、ヤマハの特設ページが公開されました。継続的にVOCALOIDの新技術を試して記事にしていた筆者もお祝いのメッセージを書いています。

AIは無知をどこまで認識できるか? 人類が回答不可能な質問をGPTやClaude、Geminiなどに大量にぶつけてみた(生成AIクローズアップ)
AIたちが「答えが分からない」と自身の無知を認識できるかを検証した論文「The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz」を取り上げます。

ChatGPTでサンタさんとの音声会話ができるように。iPhoneだけでGoogle Stream Realtime対抗のビデオ・画面共有会話もやってみた(CloseBox)
OpenAIが12日間、新機能を発表する「12 Days of OpenAI」、6日目はChatGPTのAdvanced Voice Mode(高度な音声)の新機能について。

iPhoneだけでAI画像生成できる、Apple IntelligenceのImage Playgroundが使えるiOS 18.2で、ChatGPTとSiriの統合を試してみた(CloseBox)
Apple Intelligenceはまだ日本語では使えませんが、英語モードにすれば利用可能です。本日アップデートされたiOS 18.2ではChatGPTとの統合に加え、待望のAI画像生成機能「Image Playground」が追加されました。その機能を試してみます。

Google怒涛の新作AI発表。1位獲得の言語AI「Gemini-Exp-1206」、画像1枚からプレイ可能な3Dゲーム生成AI「Genie 2」、動画生成AI「Veo」、高性能天気予報AI「GenCast」など生成AI技術5つを解説(生成AIウィークリー)
OpenAIは、ChatGPTの新しい有料プラン「ChatGPT Pro」を発表しました。価格は月額200ドルで、最高レベルの「OpenAI o1」を含むすべてのモデルを無制限で使用することができます。

「登場即ライバル動画生成AI死亡」ではなかった。使ってわかったSoraの品質と限界(CloseBox)
人気のため一時はアカウント作成ができない状態だったSoraですが、ようやくアカウントを作成し、ログインできたので試してみました。

OpenAIのSora、1080p 最大20秒の動画生成AI最高水準でついに一般公開。3万円コースのChatGPT Proユーザーは無制限モードあり(CloseBox)
OpenAIの動画生成AI「Sora」がついに公開されました。

OpenAIアドベントカレンダーこと「12 Days of OpenAI」、スタート。Day 1はChatGPT Pro(月額200ドル)とo1完全版(CloseBox)
OpenAIアドベントカレンダーこと「12 Days of OpenAI」、が始まりました。初日はChatGPT Pro(月額200ドル)とo1完全版を発表しました。

OpenAI、今夜から12回の(ウィークデー)ライブ発表を予告。やっとSoraが使えるようになるの?(CloseBox)
毎年この時期に大きな発表をするのが慣例となっているOpenAIですが、今年は1回では収まらず、12日連続(ただしウィークデーのみ)のライブストリーミングで行うことをXへのポストで予告しています。

「写真はイメージです」を撲滅したいので、Gemini LiveとChatGPTとおしゃべりして解決策を探った(CloseBox)
GeminiとChatGPTに、「写真はイメージです」という表現の代替案を考えてもらいました。

ChatGPT searchはGoogle検索の脅威となるか? 試してわかったこと(Google Tales)
OpenAIがSearchGPTの提供を開始したことが、すわGoogle検索キラーの本命か、とかなり話題になっておりました。Googleも、かなり危機感を持っていると思います。

HeyGenが進化し、20枚の写真から表現力あるAIアバターを作成。OpenAIの多言語ボイスクローン使用か(CloseBox)
HeyGenが、20枚以上(10枚程度でも可能)の本人写真・画像があれば、そのアバターを作って、リアルなリップシンクができるようになったのです。さらに、ボイスクローンも。

OpenAIの複数AIが協力するマルチエージェント用システム「Swarm」、商用利用可能なオープンな動画生成AI「Pyramid Flow」など生成AI技術5つを解説(生成AIウィークリー)
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第67回)では、商用利用可能なマルチモーダル大規模言語モデル「ARIA」と動画生成AI「Pyramid Flow」などを取り上げます。

遅れに遅れたChatGPT高度な音声モードが公開開始されたので、AIパーソナリティーのポッドキャストを作ってみた(CloseBox)
OpenAIがようやくAdvanced Voice Modeのロールアウトを始めました。

OpenAI、独自検索エンジン「SearchGPT」公開。招待制の期間限定試作、ChatGPTと統合へ
OpenAIが、うわさの独自検索エンジン「SearchGPT Prototype」の試験運用を開始しました。

今そこにあるSora、現時点最高クラスの誰でも使える動画生成AI「Luma Dream Machine」が人気すぎて数時間の待ち行列(CloseBox)
今使えるSoraのライバルが登場しました。

Apple Intelligenceはどのように開発されたのか? 中核をなすオンデバイスAIモデルとPrivate Cloud Computeについて今わかっていること(CloseBox)
アップルが打ち出したAIフレームワーク「Apple Intelligence」ですが、個々の機能についてはわかるものの、全体像がつかみにくいものになっています。

アップルのAI『Apple Intelligence』まとめ。ChatGPTもOS統合 iPhone 15 ProかM1以降必須
開発者イベントWWDC24で、Appleがうわさの独自AIシステム『Apple Intelligence』を発表しました。

手のひら投影AIデバイス「Humane Ai Pin」はGTP-4oとGemini両刀使い。アップデートされた使い勝手をチェックした
サンフランシスコのスタートアップHumaneが開発した手のひら投影型AIデバイス「Ai Pin」に注目が集まっています。

中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー)
週次で生成AI関連技術5つを紹介する連載。中国のショート動画アプリ開発チーム「快手」が手がけるSoraに匹敵する動画生成AI「KLING」など。

GPT-4o vs. Project Astra。マルチモーダルLLM戦争を語るポッドキャスト第55回を配信(TechnoEdge-Side)
テクノエッジ編集部では、人気のテック系ポッドキャスト「backspace.fm」の中に「TechnoEdge-Side」(テクノエッジ・サイド)というチャンネルを設け、週1回のペースでお届けしています。

スカヨハ、ChatGPTの声提供をサム・アルトマンから繰り返し提案され断っていたと明かす。そっくりの『Sky』には衝撃と怒りを声明
ハリウッドスターのスカーレット・ヨハンソンは、声の使用を断ったにもかかわらずOpenAIが「不気味なほど自分に似た」AI音声を発表したことに「ショックを受け、怒り」を覚えたと述べ、同社のサム・アルトマンCEOに対し「信じられない」とする声明を出しました。

OpenAI、ChatGPTのMacアプリ公開。Macのカメラやスクショ、写真ライブラリにもアクセスし音声対話可能
OpenAIはChatGPTのGPT-4oを使えるマルチモーダルなMacアプリを公開した。
- 119件中 1 - 42 件を表示
- 次へ