Googleが2024年に発表したブラウザ操作AI「Project Mariner」の開発チームを再編。AI業界がコーディングエージェントに注力する中、ブラウザ操作型AIの優先度を下げる判断。今後はGemini Agentなど他製品に技術を統合へ。
Google、ブラウザ操作AI「Project Mariner」チームを再編―コーディングエージェント重視へ転換
Googleは、Chromeブラウザを自動操作するAI「Project Mariner」の開発チームを再編しました。WIREDの取材によると、ここ数カ月で一部のGoogle Labs研究者が、より優先度の高いプロジェクトへ異動したことが明らかになりました。Googleの広報担当者は、Project Marinerで開発された技術は今後も同社のAIエージェント戦略に組み込まれると説明しています。実際に、最近発表されたGemini Agentなど他の製品にすでに統合されているとのことです。この変更は、AI業界全体がブラウザ操作型AIから、より高性能なコーディングエージェント(OpenClawなど)へと関心を移している流れを反映しています。ブラウザ操作AIは一般消費者への普及が期待されていましたが、実際の利用者数は予想を大きく下回っており、AI企業は戦略の見直しを迫られています。
Project Marinerとは何か
Project Marinerは、Googleが開発したAIエージェントです。AIエージェントとは、人間の指示を受けて自律的にタスクを実行するAIシステムのことです。Project Marinerの特徴は、Chromeブラウザ上でウェブページを操作できる点にあります。具体的には、マウスでクリックしたり、スクロールしたり、フォームに文字を入力したりといった、人間がブラウザで行う操作を代行できます。
GoogleのCEOであるサンダー・ピチャイ氏は、2024年のI/Oカンファレンスでこのプロジェクトを重要な取り組みとして紹介しました。当時、ブラウザ操作型AIは業界の次なる大きな賭けと見なされていました。OpenAIやPerplexityも同様の製品を発表し、オンラインでのタスクを自動化すると約束していました。
ブラウザ操作AIの普及が進まなかった理由
しかし、これらの製品の普及は業界の期待を大きく下回りました。Perplexityのブラウザエージェント「Comet」は、2025年12月時点で週間アクティブユーザー数が280万人にとどまりました。OpenAIのChatGPT Agentも、最近では週間アクティブユーザー数が100万人未満に落ち込んだと報じられています。毎週数億人がChatGPTを利用していることと比較すると、ブラウザエージェントの利用者数は誤差の範囲とも言えます。
スタンフォード大学でAIを教えるキアン・カタンフォルーシュ氏は、ブラウザ操作AIが普及しなかった理由として、膨大な計算リソースが必要な点を挙げています。これらのエージェントは、ウェブページのスクリーンショットを連続的に撮影し、それをAIモデルに入力して、画像から判断した行動を実行します。この処理は遅く、時には信頼性に欠けることがありました。
コーディングエージェントへの転換
AI業界の関心は、この1年で劇的にコーディングエージェントへと移りました。代表的なものに、Claude CodeやOpenClawがあります。これらのシステムは、コマンドライン(テキストベースのコンピュータ操作画面)を通じてコンピュータを制御します。この方法は、タスクを完了するより信頼性の高い手段であることが証明されました。
カタンフォルーシュ氏は、「Claude CodeとOpenClawが示したのは、ターミナル(コマンドライン)で作業する方が実際にははるかに効率的だということです。ターミナルはテキストベースで、大規模言語モデルもテキストベースだからです」と説明します。同じ結果を得るまでのステップ数が、10倍から100倍少なくて済むとのことです。
Nvidia CEOのジェンセン・フアン氏は、今週開催された同社の開発者会議で、OpenClawをエージェント型コンピュータの新しいオペレーティングシステムに例えました。「今日、世界中のすべての企業がOpenClaw戦略を持つ必要があります」と述べています。
ブラウザ操作AIの今後の可能性
ただし、ブラウザ操作AIの研究が行き詰まったわけではありません。2025年1月、スタートアップのStandard Intelligenceは、スクリーンショットではなく動画で学習したコンピュータ操作モデルを発表しました。同社は、動画をAIモデルのコンテキストウィンドウ(処理できる情報量の範囲)に圧縮できる動画エンコーダーを開発し、従来のモデルより50倍効率的だと主張しています。実演では、このAIモデルを車、ライブ映像、コンピュータキーボードに接続し、サンフランシスコ市内で短時間の自動運転を実現しました。
コンピュータ操作エージェントのスタートアップSimularのCEOで、元Google DeepMind研究者のアン・リー氏は、コンピュータ操作エージェントがエージェント機能の重要なギャップを埋めると主張します。「ターミナルで多くの問題を解決できますが、GUI(グラフィカルユーザーインターフェース)で解決しなければならない問題は常に存在します。例えば、医療保険のウェブサイトや他のレガシーソフトウェアには、ターミナルエージェントが呼び出せるAPIがないことが多いのです」と説明しています。
できること・できないこと
現在のコーディングエージェントは、開発者にとって非常に有用なツールとなっています。コードを書くだけでなく、他のアプリケーションを使用したり、ファイルを修正したり、カスタムソフトウェアを作成したりできます。例えば、予算管理の支援が必要な場合、銀行の明細書をコーディングエージェントにアップロードすれば、支出習慣を評価するためのカスタムダッシュボードを作成してくれます。
OpenAIの幹部は、Codex(同社のコーディングエージェント)をChatGPT内の汎用エージェントとして機能させたいと述べています。Anthropicはすでにこれを実現しており、Claude Code派生の「Claude Cowork」は、ユーザーがターミナルを開く必要がありません。ブラウザエージェントに大きく賭けていたPerplexityも、最近「Personal Computer」という類似製品を発表しました。
一方で、一般消費者への普及にはまだ課題があります。GoogleやOpenAIは、消費者がAIエージェントを使ってInstacartで食料品を注文したり、ディナーの予約をしたりできると述べています。これらは確かに便利に聞こえますが、エージェントがミスをしないと確信できるまで、人々はそうしたタスクを自動化したがらない可能性があります。信頼性と正確性が、今後の普及の鍵となるでしょう。
私たちへの影響
このニュースは、AI技術の進化の方向性を示しています。ブラウザ操作AIからコーディングエージェントへの転換は、AI企業が実用性と効率性を重視していることを表しています。
短期的には、開発者やプログラマーがコーディングエージェントの恩恵を最も受けるでしょう。これらのツールは、コードの作成、デバッグ、アプリケーションの統合などを支援し、生産性を大幅に向上させます。一般消費者にとっては、当面は目に見える変化は少ないかもしれません。
中長期的には、コーディングエージェントの技術が成熟し、より使いやすい形で一般消費者向け製品に統合されることが予想されます。例えば、複雑なタスクを自然言語で指示するだけで、AIが裏側でプログラムを作成して実行してくれるようになるかもしれません。ただし、これらのツールが日常生活に浸透するには、信頼性の向上とユーザーインターフェースの改善が不可欠です。
ただし、AIエージェントに重要なタスクを任せる際は、慎重さが必要です。現時点では、エージェントが間違いを犯す可能性があるため、重要な決定や金銭が絡む操作については、人間による確認が推奨されます。技術の進歩とともに、これらの制約は徐々に解消されていくでしょう。
