OpenAIは1月23日(米国時間)、ユーザーの代わりにブラウザを操作してタスクを実行するAIエージェント「Operator」を発表しました。
OperatorはAnthropicのComputer Useやオープンソースのbrowser-useのように、AIがユーザーの代理人としてコンピュータを自動操作する仕組み。
サム・アルトマンCEOらはYouTubeライブで実際にデモを行いました。
OpenTable、eBay、Target、Uberといったサイトと提携していますが、それ以外のサイトでも利用可能。
Operatorでは、Computer-Using Agent(CUA)という新しいモデルを採用しています。これはビジョン機能付きGPT-4oを先進的な強化学習をで鍛え、人間がグラフィカルユーザーインタフェースを操作する様子を学習しています。
ユーザーがタスクを指定すると、左側にエージェントの動作履歴、右側にブラウザが開き、操作画面を確認できます。
ChatGPTのcustom instructionsに住所などの個人情報を入れておくと、入力フィールドを自動修正してくれます。
現行バージョンはresearch previewで、利用できるのは米国のChatGPT Proユーザーのみ。カレンダーの入力ができないなどの制限もあります。
対象地域では徐々にロールアウトしている模様で、今後2、3時間で対象ユーザーは利用可能になりそうです。
フォームへの入力、日用品の注文、創作活動に至るまで、内蔵ブラウザで、指定したタスクをタイピング、クリック、スクロールしながら実行していきます。
やれることはbrowser-useと同様ですが、途中でユーザーが一時停止して指定を追加・変更したりブラウザに入力したりといったことも可能です。ログイン、支払い情報入力、CAPTCHAの操作などは自動的にユーザー操作にスイッチします。
▲タスク実行の途中でユーザーによる介入もできる
▲Computer Use、browser-useとの比較
AIがエージェントとなる場合、さまざまな阻害要因やセキュリティの問題が懸念されますが、その対策も掲げています。
現在はセキュリティなどを検証中で、Plus、Team、Enterpriseプランへの拡大も予定しています。