OpenAI、ブラウザ操るAIエージェント「Operator」を発表。ユーザーの代わりに複雑なタスクを処理し、ユーザーの介入も可能

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

OpenAIは1月23日(米国時間)、ユーザーの代わりにブラウザを操作してタスクを実行するAIエージェント「Operator」を発表しました。

OperatorはAnthropicのComputer Useやオープンソースのbrowser-useのように、AIがユーザーの代理人としてコンピュータを自動操作する仕組み。


サム・アルトマンCEOらはYouTubeライブで実際にデモを行いました。

OpenTable、eBay、Target、Uberといったサイトと提携していますが、それ以外のサイトでも利用可能。

Operatorでは、Computer-Using Agent(CUA)という新しいモデルを採用しています。これはビジョン機能付きGPT-4oを先進的な強化学習をで鍛え、人間がグラフィカルユーザーインタフェースを操作する様子を学習しています。

ユーザーがタスクを指定すると、左側にエージェントの動作履歴、右側にブラウザが開き、操作画面を確認できます。

ChatGPTのcustom instructionsに住所などの個人情報を入れておくと、入力フィールドを自動修正してくれます。

現行バージョンはresearch previewで、利用できるのは米国のChatGPT Proユーザーのみ。カレンダーの入力ができないなどの制限もあります。

対象地域では徐々にロールアウトしている模様で、今後2、3時間で対象ユーザーは利用可能になりそうです。

フォームへの入力、日用品の注文、創作活動に至るまで、内蔵ブラウザで、指定したタスクをタイピング、クリック、スクロールしながら実行していきます。

やれることはbrowser-useと同様ですが、途中でユーザーが一時停止して指定を追加・変更したりブラウザに入力したりといったことも可能です。ログイン、支払い情報入力、CAPTCHAの操作などは自動的にユーザー操作にスイッチします。

▲タスク実行の途中でユーザーによる介入もできる

▲Computer Use、browser-useとの比較

AIがエージェントとなる場合、さまざまな阻害要因やセキュリティの問題が懸念されますが、その対策も掲げています。

現在はセキュリティなどを検証中で、Plus、Team、Enterpriseプランへの拡大も予定しています。

《松尾公也》

Amazon売れ筋ランキング

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。