複雑なタスクをブラウザでこなすOpenAIのAIエージェント「Operator」を使ってみてわかった限界点(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

米国のChatGPT Proユーザーのみに開放されているOpenAIのAIエージェント「Operator」を試してみました。


欧州以外の国であれば近々公開予定ということなので、日本でもしばらくすれば利用できると思いますが、VPNを使って一足先に使用感を見ています。現在は月額3万円を払っているProプランユーザーで米国のみに開放されています。

対応済みのWebサービスを使った例がいくつか挙げられていますが、どれも日本ではほぼ使えないものばかり。日本対応の際にはぜひ国内サービスのサンプルも欲しいところです。

では実践。

まず、「今日の東京の天気を調べて、それを入れた歌詞を作り、suno.comにアクセスしてJ-POPの曲を作って」というタスクを命じました。

お天気サイトにアクセスして歌詞を作るところまではやってくれましたが、suno.comを表示すると、先に進めません。ログインが必要になるからです。

ここで、ログインのためにTake controlでユーザーが自分で操作する必要があります。ロボットでないことを証明するCloudflareのボタン、CAPTCHA突破、ログインの際の認証などが必要です。

一応曲を作るところまでできました。ブラウザから音が出ないので、どういうものかを確認することはできません。

同様に、今日の東京の天気からsora.comで動画を作らせました。同じOpenAIのサービスならアカウントの確認は不要かと思ったら、Cloudflareのロボットではない認証をはじめ、ChatGPTアカウントの認証もフルに必要で、ハードモードです。

これらのタスクをOperator側で処理している時のブラウザの様子は、ビデオとして共有できます。

ユーザーが認証しているところはカットされているので安心。

ブラウザ処理自体はサーバ側でやっているようで、動画の再生はカクカク。URLを表示させ、ローカルのブラウザで確認するのが良さそうです。

一度認証したサイトは次回からはそのままアクセスできるようなので、次回以降は便利になります。

ただ、基本はタスクに必要なサイトを検索して実行していくため、ChatGPT内で済むことも外部サービスでやらせようとします。例えば「SF小説を書いてイメージを描いて」といった処理はChatGPTの機能を使えば簡単なはずですが、それはできません。

「Google Geminiを使って、近未来の米国の政治状況を予想するSF短編小説を書いて、Google ImageFXでその小説の扉絵を描いて。途中のユーザー操作はできるだけ少なくして」に対しても「できません」と回答。

「ChatGPTを使って、爽やかな恋愛短編小説を書いて、DALL-Eでその小説の扉絵を描いて。途中のユーザー操作はできるだけ少なくして」に対しては、「I'm unable to generate creative content like a short story or its illustration using ChatGPT or DALL-E. However, I can guide you on how to do it. Would you like instructions on how to proceed?」との返事。クリエイティブなコンテンツ生成には向いていないようです。

そういうことはChatGPTの中でやってくださいということでしょうか。

例えばChatGPTで長編小説を書かせようとすると、トークン数制限から「続きを書いて」を連発する必要があります。そういうのをOperatorにやらせたいのですが、そういった用途には使えないようです。

それでも、作曲AI、画像生成AI、動画生成AIなどの外部サービスを連携させることはできそうなので、これから使い込んでいきたいです。

同様なことはオープンソースのbrowser-useでも可能ですし、普段使いのブラウザが利用できる分便利ですが、まだ設定が難しい部分もあり、Operator、Anthropic Computer Use、browser-useなどAIエージェントの改善に期待ですね。

サンプルにもある、条件を満たす商品を探すのは簡単です。ヨドバシで評価の高いMagSafeバッテリーを探すタスクを走らせてみました。

次に、その価格をAmazon.co.jpと比較させてみました。AmazonへのアクセスにはCAPTCHAが必要だったので、そこはTake controlで自分が操作しましたが、そのあとはまた自動に。

Amazonの国設定で、Japanを選ぶべきところを操作ミスでJordan、Jamaicaと間違えたのですが、郵便番号を100-0001と入力して無事に日本語設定に辿り着き、ヨドバシとの価格比較をこなしました。この辺はとても人間っぽい動きです。


《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。