生成AIの重要論文5本を解説する連載。今週は、アニメの“中割り”を生成してアニメーションに仕上げる「ToonCrafter」、1枚の画像とモーションデータからダンス動画を生成するAIモデル「MusePose」など。
テクノエッジ編集部では、人気のテック系ポッドキャスト「backspace.fm」の中に「TechnoEdge-Side」(テクノエッジ・サイド)というチャンネルを設け、週1回のペースでお届けしています。
AI作曲の覇権を競うSunoとUdioが相次いで機能強化を発表しました。
アップルは、6月10日とだけ予告していた開発者イベントWWDC24の基調講演を、6月10日午前10時(太平洋夏時間)に開催すると発表しました。日本時間では6月11日午前2時から。発表の模様はアップルのウェブページ、YouTubeなどで視聴できます。
生成AIに関する重要論文を解説する連載。今回は、“文学作品”を翻訳する実際の出版社を真似たAI会社「TransAgents」、GPT-4で企業の財務諸表を分析し将来の利益を予測……など5本。
このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。
Minecraftをプレイするときに、AIアシスタント「Copilot」と会話できる機能をMicrosoftが発表しました。21日にSNSで公開された映像では、プレイヤーがCopilotにアイテム制作のアドバイスを求めたり、Copilotが脅威への対処法を知らせる様子が映されています。
Humaneは2023年11月、同社の最初で唯一の製品であるAI Pinを発表、2024年4月に出荷を開始し始めたばかりでしたが、新しい報道によると現在、会社の売却を検討しているとのことです。
中国国家サイバースペース管理局(CAC)は、習近平国家主席の思想と政治哲学に関する著書などでトレーニングされた大規模言語モデル(LLM)を搭載するAIシステムを開発しました。
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第25回は、画像生成と切っても切り離せないアップスケールの新技術編。
テクノエッジとして初となる紙の書籍「グラビアカメラマンが教える 生成AIグラビア実践ハンドブック」、5月26日から開催される技術書典に向けて無事入稿いたしました。
ハリウッドスターのスカーレット・ヨハンソンは、声の使用を断ったにもかかわらずOpenAIが「不気味なほど自分に似た」AI音声を発表したことに「ショックを受け、怒り」を覚えたと述べ、同社のサム・アルトマンCEOに対し「信じられない」とする声明を出しました。
Logic Pro 11の新機能として前回は1つのオーディオファイルを4つの楽器パートに分離する「Stem Splitter」を紹介しましたが、今回はその続きです。
Microsoftは5月20日(現地時間)、新しいPCカテゴリーとなる「Copilot+PCs」を発表。それにあわせて、Copilot+PCsで利用できる新機能としてRecall(日本語では「回顧」となっています)を発表しました。
マイクロソフトはクアルコム製のSnapdragon Xシリーズを搭載した第7世代Surface Laptopを発表しました。どちらも同社が提唱する新たなWindows PCカテゴリ「Copilot+ PC」に属します。
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。今回は、GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」、大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査などを紹介。
Googleは5月14日~15日(現地時間)、年次開発者会会議Google I/Oを開催しました。直前にPixel 8aが発表されていたこともあり、AI一色だったGoogle I/Oですが、一般ユーザーが身近に感じられそうなのがGemini Advancedのアップデートでしょう。
テクノエッジは、5月25日から6月9日にかけてオンラインおよびオフラインで開催されるイベント「技術書典16」に出展します。
人気連載「生成AIグラビアをグラビアカメラマンが作るとどうなる?」の著者である西川和久さんを講師に迎えた、生成AIグラビアワークショップの第2期第2回を5月22日に開催いたします。なお、今回お申し込みいただいた方は、前回分の動画アーカイブを視聴いただけます。
Googleは年次開発者会議「Google I/O」にて、Androidスマートフォンに掛かってきた電話が詐欺の疑いがある場合、ユーザーに警告する機能をテスト中だと発表しました。
日本時間5月15日午前2時より開催されたGoogle I/Oより。Googleは今回のイベントで、Gemini AIをさらに多様なプロダクトに組み込んでいることを大きくアピールしました。
5月15日の Google I/O基調講演で、Googleが新たな動画生成AIモデル『Veo』を発表しました。
Logic ProのMac版であるバージョン11とiPad版のバージョン2が、5月14日に更新されました。本当に10年待ったぜ、という感じのSession Players、AI作曲時代にぴったりのStem Splitterなど、大きな新機能が入った新版です。
lllyasviel氏復活第一弾のIC-Light
OpenAIはChatGPTのGPT-4oを使えるマルチモーダルなMacアプリを公開した。
OpenAIは5月13日(米国時間)、オンラインでSpring Updateイベントを開催。その中で、フラグシップとなる大規模言語モデル「GPT-4o」を発表しました。APIでの提供も行い、現行のGPT-4 Turboと比べて2倍高速、価格は50%安価に、レートリミットは5倍に拡張されています。
アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援
生成AIの重要論文5本を解説する連載。Googleが“一歩先の未来を予知”できる時系列予測AI基盤モデル「TimeFM」公開、LSTMの進化形「xLSTM」など。
AI作曲サービスのUdioは5月8日、有料プランを含むサブスクリプションをスタートしました。同時に、生成した楽曲の部分修正を行う「Audio Inpainting」機能を追加しています。
アップルは5月7日、音楽制作ソフトLogic Proの機能アップを発表しました。
作曲AIサービスのUdioが5月1日、新機能を搭載したとX上で発表しました。長く、一貫性のある曲を作れるようになると謳っています。この新機能を使ってプログレの長い曲を作ってみました。
AIが創造したプログレバンド「The Midnight Odyssey」が世界デビューしてから1カ月が過ぎました。バンドは勢力的に活動しているようで、リードギターのエリオット・スミスがリモートでインタビューに応じた映像が飛び込んできました。
動画生成AIにまつわる最新の話題をお届けしている、この短期連載。今回は、(おそらく)世界中のAI動画クリエイターたちが使ってみたいと考えているOpenAIのSoraによる映像制作が、そんなに簡単なものではないという裏話と、複数の人気動画生成AIに同じプロンプトで動画を生成させて比較してみます。
最新の生成AI重要論文を紹介する連載。今回は、AIの新星ニューラルネットワーク「KAN」、LLMが“カンニング”して評価を盛っていた問題など5本。
Googleは4月30日(現地時間)、Geminiモバイルアプリの提供地域を拡大すると発表しました。日本でもAndroidではGoogle Playストアからダウンロードが可能。iOSの場合は専用アプリはなく、Googleアプリからのアクセスとなります。
Anthropicは5月1日(現地時間)、生成AI「Claude(クロード)」のiOSアプリをリリースしました。あわせて、新プランとなる「Team」も発表されています。
グラビアカメラマンでエンジニアの西川和久氏による生成AIグラビア連載、今回は画像生成モデルStable Diffusion を使う定番インターフェースのひとつ Automatic1111の新バージョン解説と、プロンプトから高速に画像を検索できるエクステンションSearchMyPNGの使い方について。
テクノエッジのYouTubeチャンネルで、毎週水曜日のお昼に生成AI音楽に関するライブ配信することにしました。名付けて、「AIライブハウス」。いきなりですが、本日(5月1日)正午にスタートです。
アップルは、5月7日の「Let Loose」スペシャルイベントで発表すると見られている新型iPadにM4チップを搭載し、機能向上したNeural EngineのAI機能を大々的に宣伝するようです。
生成AIの重要論文5本を解説する連載。今回は、自分の声のまま多言語な声に変換できる商用利用可能な音声クローンAI「OpenVoice V2」、AppleとMicrosoftがスマホ上でも動く生成AIなど。
アップルは次期iOS 18の「いくつかの機能」を生成AIにより強化するため、複数の企業と交渉しているとの噂は、何度か報じられてきたことです。たとえばGoogleとは、Gemini AIの使用に関して協議している、という具合です。