OpenAI、ブラウザ操るAIエージェント「Operator」を発表。ユーザーの代わりに複雑なタスクを処理し、ユーザーの介入も可能

テクノロジー AI

2025 Jan 24 4:45

松尾公也

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

OpenAI、ブラウザ操るAIエージェント「Operator」を発表。ユーザーの代わりに複雑なタスクを処理し、ユーザーの介入も可能

OpenAIは1月23日（米国時間）、ユーザーの代わりにブラウザを操作してタスクを実行するAIエージェント「Operator」を発表しました。

OperatorはAnthropicのComputer Useやオープンソースのbrowser-useのように、AIがユーザーの代理人としてコンピュータを自動操作する仕組み。

AIコンテンツ自給自足はもう始まっている。ChatGPT連載小説とAIエージェント「browser-use」がもたらす未来（CloseBox） | テクノエッジ TechnoEdge

AI小説の執筆、だいぶ慣れてきました。そして、browser-useというソフトが面白いです。

https://www.techno-edge.net/article/2025/01/01/3990.html続きを読む »

サム・アルトマンCEOらはYouTubeライブで実際にデモを行いました。

OpenTable、eBay、Target、Uberといったサイトと提携していますが、それ以外のサイトでも利用可能。

Operatorでは、Computer-Using Agent（CUA）という新しいモデルを採用しています。これはビジョン機能付きGPT-4oを先進的な強化学習をで鍛え、人間がグラフィカルユーザーインタフェースを操作する様子を学習しています。

ユーザーがタスクを指定すると、左側にエージェントの動作履歴、右側にブラウザが開き、操作画面を確認できます。

ChatGPTのcustom instructionsに住所などの個人情報を入れておくと、入力フィールドを自動修正してくれます。

現行バージョンはresearch previewで、利用できるのは米国のChatGPT Proユーザーのみ。カレンダーの入力ができないなどの制限もあります。

対象地域では徐々にロールアウトしている模様で、今後2、3時間で対象ユーザーは利用可能になりそうです。

フォームへの入力、日用品の注文、創作活動に至るまで、内蔵ブラウザで、指定したタスクをタイピング、クリック、スクロールしながら実行していきます。

やれることはbrowser-useと同様ですが、途中でユーザーが一時停止して指定を追加・変更したりブラウザに入力したりといったことも可能です。ログイン、支払い情報入力、CAPTCHAの操作などは自動的にユーザー操作にスイッチします。

▲タスク実行の途中でユーザーによる介入もできる

▲Computer Use、browser-useとの比較

AIがエージェントとなる場合、さまざまな阻害要因やセキュリティの問題が懸念されますが、その対策も掲げています。

現在はセキュリティなどを検証中で、Plus、Team、Enterpriseプランへの拡大も予定しています。

追記：VPNを使い、Operatorにアクセスしてみました。今日の東京の天気を織り込んだ歌詞でsunoに作曲させたり、soraに動画を生成させるタスクをやらせてみました。

《松尾公也》

Amazon売れ筋ランキング

デスクトップPC

>> もっと見る

ノートPC

>> もっと見る

タブレット

>> もっと見る

スマートフォン

>> もっと見る

松尾公也

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

ショート動画

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。