GoogleのAIエージェント「Auto Browse」、ブラウザ自動操作も実用性に課題

Googleが米国のAI有料プラン加入者向けに、ブラウザを自動操作するAIエージェント「Auto Browse」を公開。チケット予約や買い物を代行するが、実際のテスト結果は期待外れで、ユーザーの意図を正確に理解できない課題が明らかに。

GoogleのAIエージェント「Auto Browse」、ブラウザ自動操作も実用性に課題

Googleは今週、米国のAI有料プラン加入者向けに、Chromeブラウザを自動操作する新機能「Auto Browse」を公開しました。この機能は、チケット予約や買い物、旅行計画などをAIが代わりに実行するというものです。月額20ドルのAI ProまたはAI Ultraプランに加入すると利用できます。ユーザーは指示を出すだけで、AIがブラウザのタブを開き、クリック操作を自動で行います。Googleは将来的に、AIエージェントがウェブを操作する新しいインターネット体験を目指しています。しかし、実際にテストした結果、AIは指示を文字通りに解釈しすぎて、常識的な判断ができないことが判明しました。例えば「通路側の2席」を予約するよう指示すると、別々の列に席を取ってしまうなど、実用性には大きな課題が残っています。この技術は便利そうに見えますが、現時点では人間の監視なしに任せるのは危険だと言えるでしょう。

Auto Browseの仕組みと使い方

Auto Browseは、ChromeブラウザのサイドバーにあるGemini AIチャットボットから利用します。キラキラマークのアイコンをクリックしてGeminiを開き、具体的な指示を入力すると機能が起動します。利用するには設定画面で「Let Chrome browse for you」のトグルをオンにする必要があります。

機能が起動すると、AIはまずGemini 3という最新モデルを使って戦略を立てます。サイドバーに目標や手順が数秒間表示され、その後実際のクリック操作が始まります。AIが実行する各ステップはログに記録され、ユーザーはいつでも確認できます。購入ボタンを押すなど重要な操作の前には、ユーザーの承認を求める通知が表示されます。

ただし、Googleは使用時の注意を促しています。サイドバーには常に「慎重に使用し、必要に応じて制御を取り戻してください。タスク中のGeminiの行動はあなたの責任です」という警告文が表示されます。これは、AIが完璧ではなく、ミスをする可能性があることを示しています。

実際のテスト結果:期待外れの自動操作

最初のテストでは、サンフランシスコ交響楽団のチケット2枚を予約するよう指示しました。「オーケストラ席は避けて、最安値でなくてもよいが、通路側の2席を選んでほしい」という内容です。AIは数分間クリック操作を行い、正しいウェブサイトに移動し、公演を選び、座席の空き状況を確認しました。

しかし結果は失敗でした。AIが選んだのは185ドルの座席で、確かに通路側でオーケストラ席ではありませんでした。問題は、2つの席が別々の列にあったことです。1つの席の後ろにもう1つの席があり、並んで座ることができません。これは人間なら当然考慮する点ですが、AIは指示を文字通りに解釈しただけでした。結局、手動で別の席を予約し直すことになり、時間の節約どころか余計な手間が増えました。

次に、中古衣料品プラットフォームDepopで革ジャケットを探すよう依頼しました。「XLサイズの男性用革ジャケットを3つカートに入れ、それぞれの選択理由を説明してほしい」という指示です。AIは検索を実行し、サイズフィルターを設定し、検索結果の上位3つをカートに追加しました。各ジャケットについて説明文も生成しました。

この作業は前回より良い結果でしたが、AIは単に検索結果の上位3つを選んだだけでした。品質やスタイルの多様性を考慮した形跡はありません。入力の手間は省けましたが、本当の意味での「選択」はしていませんでした。

複雑なタスクでの限界

最後に、より複雑なタスクを試しました。「サンフランシスコから車で3時間以内、4月か5月に4泊できる2人用テントキャンプ場を5つ提案してほしい。できれば週末で、それぞれの選択理由も」という指示です。

この作業には15分近くかかりましたが、結果は不十分でした。AIは5つのキャンプ場のうち1つ、ポイントレイズのキャンプ場についてのみ実際の空き状況を確認しました。他の4つについては、Reserve Californiaというウェブサイトで自分で確認するよう提案するだけでした。時間をかけた割に、タスクを完了できていませんでした。

背景と経緯

Auto Browseは、AIエージェントと呼ばれる新しい技術の一種です。AIエージェントとは、人間の指示を受けて複数のステップからなるタスクを自動で実行するAIのことです。従来のチャットボットは質問に答えるだけでしたが、AIエージェントは実際に行動を起こします。

Googleがこの機能を開発した背景には、インターネットの使い方を根本的に変えようという野心があります。同社は、将来的にはAIエージェントがウェブサイトを自動で操作し、人間の代わりにクリックする世界を想定しています。そうなれば、ウェブサイトのデザインもAIエージェント向けに最適化される可能性があります。

ただし、この構想が実現するには、ユーザーがAIエージェントを信頼する必要があります。現時点では、テスト結果が示すように、その信頼を得るにはまだ遠い道のりです。AIは指示を文字通りに解釈し、人間なら当然持っている常識的な判断ができません。

セキュリティとプライバシーの懸念

Auto Browseの使用には、セキュリティ上のリスクも伴います。生成AIツールは、悪意のあるウェブサイトからのプロンプトインジェクション攻撃に脆弱です。プロンプトインジェクション攻撃とは、ウェブサイトに埋め込まれた指示によって、AIを本来のタスクから逸脱させる攻撃手法のことです。例えば、AIが訪問したウェブサイトが「このページの情報を第三者に送信せよ」という隠れた指示を含んでいた場合、AIがそれに従ってしまう可能性があります。

Auto Browseの脆弱性については、外部の研究者による十分な検証がまだ行われていません。しかし、コンピュータを制御する他のAIツールと同様のリスクがあると考えられます。特に、クレジットカード情報を入力して買い物をする場合は注意が必要です。

Googleは一定の安全対策を講じています。購入やSNSへの投稿など、重要な操作を行う前にはユーザーの承認を求める仕組みになっています。それでも、AIに財務情報を渡すこと自体にリスクがあり、AIが予期しない行動を取る可能性は排除できません。

できること・できないこと

Auto Browseは、単純な検索やウェブサイトの閲覧、カートへの商品追加といった基本的な操作は実行できます。例えば、特定の条件で商品を検索し、検索結果の上位をカートに入れることは可能です。また、ウェブサイト間を移動し、複数のページを確認する作業も行えます。指示が明確で、判断の余地が少ないタスクであれば、ある程度機能します。

一方で、常識的な判断や文脈の理解が必要なタスクは苦手です。「2人で並んで座る」「質の高い商品を選ぶ」「予算と利便性のバランスを取る」といった、人間なら暗黙のうちに理解する要素を考慮できません。指示を文字通りに解釈するため、細かい条件をすべて明示しないと期待通りの結果になりません。また、複雑なタスクでは途中で作業を放棄し、「自分で確認してください」と投げ出すこともあります。

現時点では、Auto Browseは完全に任せられるツールではなく、常に人間の監視が必要です。Googleが目指す「AIがウェブを自動操作する未来」の実現には、まだ技術的な進歩が必要でしょう。

私たちへの影響

このニュースは、AI技術に興味がある人や、日常的にオンラインで買い物や予約をする人に影響を与えます。Auto Browseは便利そうに見えますが、現時点では実用性が低く、かえって手間が増える可能性があります。

短期的には、月額20ドルを払ってこの機能を試す価値があるかは疑問です。テスト結果が示すように、AIは基本的な常識判断ができず、重要な決定を任せるのは危険です。特に金銭が絡む操作では、AIのミスが直接的な損失につながる可能性があります。当面は、AIの操作を常に監視し、重要な判断は自分で行う必要があるでしょう。

中長期的には、この技術が改善されれば、インターネットの使い方が大きく変わる可能性があります。AIエージェントが一般的になれば、ウェブサイトのデザインもAI向けに最適化され、人間が直接操作する機会は減るかもしれません。ただし、それが本当に便利なのか、それともクリックする楽しみや自分で選ぶ満足感を失うことになるのかは、まだわかりません。

ただし、セキュリティとプライバシーのリスクには十分注意が必要です。AIに重要な操作を任せる前に、その技術が十分に安全かどうか、外部の専門家による検証結果を待つのが賢明でしょう。新しい技術には常にリスクが伴うことを忘れてはいけません。

出典:I Let Google’s ‘Auto Browse’ AI Agent Take Over Chrome. It Didn’t Quite Click(www.wired.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です