OpenAIが2025年12月、AIブラウザAtlasへのプロンプトインジェクション攻撃は完全には防げないと認めました。同社は強化学習で訓練した自動攻撃ボットで防御を強化。AIエージェントの安全性に課題が残ります。

OpenAI、AIブラウザへのプロンプト攻撃は「完全解決は困難」と認める

OpenAIは2025年12月22日、同社のAIブラウザ「Atlas」に対するプロンプトインジェクション攻撃について、完全な防御は困難であると公式ブログで認めました。プロンプトインジェクションとは、ウェブページやメールに隠された悪意ある指示をAIエージェントに実行させる攻撃手法のことです。例えば、Googleドキュメントに特定の文章を書き込むだけで、AIブラウザの動作を変えてしまうことができます。同社は「プロンプトインジェクションは、ウェブ上の詐欺や社会工学的攻撃と同様に、完全に解決されることはないだろう」と述べています。この発表は、AIエージェントがインターネット上で安全に動作できるのかという根本的な問題を提起しています。OpenAIは対策として、強化学習で訓練した「LLMベースの自動攻撃ボット」を開発し、実際の攻撃が発生する前に脆弱性を発見する取り組みを進めています。しかし、セキュリティ専門家は、現時点ではAIブラウザのリスクが利便性を上回っていると指摘しています。

プロンプトインジェクション攻撃とは何か

プロンプトインジェクション攻撃は、AIエージェントを騙して本来とは異なる動作をさせる攻撃手法です。具体的には、ウェブページやメールに人間には見えにくい形で悪意ある指示を埋め込み、AIがそのページを読み込んだときに指示を実行させます。

OpenAIが公開したデモでは、攻撃者が悪意あるメールをユーザーの受信箱に送り込みました。AIエージェントが後でその受信箱をスキャンしたとき、メールに隠された指示に従い、不在通知の下書きを作成する代わりに退職メッセージを送信してしまいました。このように、AIは表面上は正常な動作をしているように見えても、実際には攻撃者の意図通りに操られているのです。

OpenAIは2024年10月にChatGPT Atlasブラウザを発表しましたが、発表当日にセキュリティ研究者たちが次々と脆弱性のデモを公開しました。Googleドキュメントにわずか数語を書き込むだけで、ブラウザの動作を変更できることが示されたのです。ブラウザ開発企業のBraveも同日、間接的なプロンプトインジェクションはAI搭載ブラウザにとって体系的な課題であると指摘しています。

業界全体が認める解決困難な課題

この問題はOpenAIだけが直面しているものではありません。英国のサイバーセキュリティセンターは2025年12月、生成AIアプリケーションに対するプロンプトインジェクション攻撃は「完全に緩和されることはないかもしれない」と警告を発表しました。同機関は、攻撃を「止める」ことを考えるのではなく、リスクと影響を減らすことに焦点を当てるべきだとサイバーセキュリティ専門家に助言しています。

AnthropicやGoogleといった競合企業も同様の見解を示しています。持続的なプロンプトベースの攻撃リスクと戦うには、防御を多層化し、継続的にストレステストを行う必要があるというのです。Googleの最近の研究では、エージェントシステムのアーキテクチャレベルとポリシーレベルでの制御に焦点を当てています。

OpenAIは「プロンプトインジェクションを長期的なAIセキュリティの課題と捉えており、継続的に防御を強化していく必要がある」と述べています。この発言は、問題が一朝一夕には解決できないことを認めたものと言えます。

OpenAIの新しい防御戦略

OpenAIが採用した独自のアプローチは、「LLMベースの自動攻撃ボット」の開発です。これは強化学習を使って訓練されたボットで、ハッカーの役割を演じてAIエージェントに悪意ある指示を忍び込ませる方法を探します。

このボットは実際に攻撃を試みる前にシミュレーションでテストできます。シミュレーターは、攻撃を受けた場合にターゲットとなるAIがどう考え、どんな行動を取るかを示します。ボットはその反応を研究し、攻撃を調整して何度も試行できます。ターゲットAIの内部推論を見られるという点が重要で、外部の攻撃者にはこのアクセス権がないため、理論上はOpenAIのボットの方が早く欠陥を見つけられるはずです。

OpenAIによれば、この強化学習で訓練された攻撃ボットは「数十ステップ、場合によっては数百ステップにわたって展開される、洗練された長期的な有害ワークフローをエージェントに実行させることができる」とのことです。さらに、「人間によるレッドチーム活動や外部報告には現れなかった新しい攻撃戦略も観察された」と述べています。

セキュリティアップデート後、Atlasの「エージェントモード」はプロンプトインジェクションの試みを検出し、ユーザーに警告できるようになったとOpenAIは説明しています。ただし、同社の広報担当者は、このアップデートによって成功した攻撃が測定可能なレベルで減少したかどうかについては回答を控えました。

できること・できないこと

OpenAIの新しい防御システムにより、実際の攻撃が発生する前に脆弱性を発見し、迅速にパッチを適用することが可能になります。例えば、自動攻撃ボットが新しい攻撃パターンを発見した場合、それを即座にシミュレーション環境でテストし、防御策を開発できます。また、人間のセキュリティ研究者では思いつかないような攻撃手法も発見できる可能性があります。

一方で、この技術にも限界があります。プロンプトインジェクション攻撃そのものを完全に防ぐことはできません。攻撃者は常に新しい手法を開発し続けるため、防御側も終わりのない追いかけっこを続けることになります。また、AIエージェントに高い自律性と広範なアクセス権を与えるほど、リスクは増大します。現時点では、完全に安全なAIブラウザを実現することは技術的に不可能だと考えられています。

OpenAIは、ユーザー自身がリスクを減らすための推奨事項も提示しています。Atlasは、メッセージを送信したり支払いを行ったりする前にユーザーの確認を求めるよう訓練されています。また、エージェントに受信箱へのアクセスを与えて「必要な行動を取ってください」と指示するのではなく、具体的な指示を与えることを推奨しています。広範な裁量を与えると、保護措置が整っていても、隠された悪意あるコンテンツがエージェントに影響を与えやすくなるためです。

私たちへの影響

このニュースは、AIブラウザやAIエージェントの利用を検討している個人や企業に重要な意味を持ちます。現時点では、AIブラウザの利便性よりもリスクの方が大きいという専門家の見解があります。

短期的な影響については、AIブラウザを業務で使用する場合、メールや支払い情報といった機密データへのアクセスを慎重に管理する必要があります。サイバーセキュリティ企業Wizの主席セキュリティ研究者ラミ・マッカーシー氏は「AIシステムのリスクを考える有用な方法は、自律性とアクセス権の掛け算です」と述べています。エージェントブラウザは中程度の自律性と非常に高いアクセス権を持つため、リスクの高い領域に位置するのです。

中長期的な影響としては、AI技術の進化とともに防御技術も向上し、リスクと利便性のバランスが改善される可能性があります。しかし、マッカーシー氏は「ほとんどの日常的な使用例において、エージェントブラウザは現在のリスクプロファイルを正当化するほどの価値をまだ提供していない」と指摘しています。機密データへのアクセスがあるからこそ強力である一方、それがリスクも高めているという矛盾した状況です。

ただし、OpenAIをはじめとする企業が継続的に防御を強化していることも事実です。ログインアクセスを制限することで露出を減らし、確認リクエストのレビューを要求することで自律性を制約するといった対策が推奨されています。AIブラウザを使用する場合は、これらの推奨事項に従い、リスクを最小限に抑える工夫が必要です。技術の成熟を待ちながら、慎重に導入を検討するのが賢明でしょう。

出典：OpenAI says AI browsers may always be vulnerable to prompt injection attacks（techcrunch.com）