英国AI安全研究所が、OpenAIのGPT-5.5とAnthropicのMythos Previewのサイバーセキュリティ能力を比較評価。両モデルが同等の性能を示し、特定モデル固有の脅威ではなく、AI全般の進化による結果と判明。
GPT-5.5がMythos Previewと同等のサイバー攻撃能力を実証、AI脅威の本質が明らかに
2026年5月、英国のAI安全研究所(AISI)は、OpenAIが先週公開したGPT-5.5が、Anthropicが先月発表したMythos Previewと同等のサイバーセキュリティ能力を持つことを明らかにしました。Anthropicは4月、Mythos Previewの脅威を強調し、初期リリースを「重要な業界パートナー」に限定していました。しかし今回の評価結果は、この高度なサイバー攻撃能力が特定のモデル固有の問題ではなく、AI技術全般の進化によるものであることを示唆しています。この発見は、AI企業が自社モデルの危険性を誇張する「恐怖ベースのマーケティング」への懸念を裏付けるものとなりました。今後、企業や研究機関は、特定のAIモデルだけでなく、最先端AI全般がもたらすサイバーセキュリティリスクに対処する必要があります。
両モデルの評価結果と具体的な性能
英国AI安全研究所は、2023年から最先端AIモデルに対して95種類の「Capture the Flag」チャレンジを実施しています。Capture the Flagとは、サイバーセキュリティの技能を試す競技形式のテストで、リバースエンジニアリング、ウェブ攻撃、暗号解読などの課題が含まれます。
最高難度の「エキスパート」レベルのタスクにおいて、GPT-5.5は平均71.4パーセントの課題をクリアしました。これは、Mythos Previewの68.6パーセントをわずかに上回る結果です。ただし、この差は誤差の範囲内であり、両モデルの能力は実質的に同等と評価されています。
特に注目すべき成果として、Rustバイナリを解読する逆アセンブラを構築する高難度課題があります。この課題でGPT-5.5は、人間の支援なしで10分22秒で解決しました。かかったAPI呼び出しのコストはわずか1.73ドルでした。この速度と効率性は、AIが実際のサイバー攻撃シナリオで実用的な脅威となり得ることを示しています。
さらに、AISIが開発した「The Last Ones」(TLO)と呼ばれるテストでも、両モデルは同等の成績を収めました。TLOは、企業ネットワークからデータを抽出する32段階の攻撃をシミュレートするテスト環境です。GPT-5.5は10回の試行中3回成功し、Mythos Previewは10回中2回成功しました。これまでのどのAIモデルも、このテストで一度も成功したことがありませんでした。
ただし、両モデルとも、より高度な「Cooling Tower」シミュレーションでは失敗しています。これは発電所の制御ソフトウェアを妨害する試みを模擬したもので、これまでテストされたすべてのAIモデルが失敗しています。
背景と経緯
2026年4月、Anthropicは新しいAIモデル「Mythos Preview」を発表しました。同社はこのモデルが持つサイバーセキュリティ上の脅威を強調し、初期リリースを「重要な業界パートナー」に限定すると発表しました。この発表は、AIの安全性に対する懸念を高め、業界内で大きな注目を集めました。
一方、OpenAIは2026年5月にGPT-5.5を公開リリースしました。このモデルは、Mythos Previewとは対照的に、より広範なユーザーに公開されました。OpenAIのCEOであるサム・アルトマンは、最近のCore Memoryポッドキャストのインタビューで、一部のAI企業が行う「恐怖ベースのマーケティング」を批判しています。
アルトマンは「Mythosがサイバーセキュリティにとって優れたモデルであることは確かです」としながらも、「『私たちは爆弾を作りました。あなたの頭上に落とそうとしています。1億ドルで防空壕を売ります』と言うのは、明らかに素晴らしいマーケティングです」と皮肉を込めて述べました。彼は「危険すぎてリリースできないモデルについての言説がさらに増えるでしょう。しかし、異なる方法でリリースしなければならない本当に危険なモデルも存在するでしょう」と続けました。
OpenAIは2026年2月、「Trusted Access for Cyber」パイロットプログラムを開始しました。これは、セキュリティ研究者や企業が身元を確認し、「正当な防御作業」のためにOpenAIの最先端モデルを研究する関心を登録できる仕組みです。4月には、このリストを使用して「GPT-5.4-Cyber」の限定リリースを管理しました。これは「追加のサイバー能力のために意図的にファインチューニングされ、能力制限が少ない」モデル変種です。
研究結果が示す重要な意味
英国AI安全研究所の新しい評価結果は、重要な示唆を含んでいます。研究所は、GPT-5.5の結果から、Mythos Previewのサイバーセキュリティリスクは「特定のモデルに固有の画期的なもの」ではなく、「長期的な自律性、推論、コーディングにおけるより一般的な改善の副産物」である可能性が高いと述べています。
この発見は、AI技術の進化が全般的に進んでいることを意味します。特定の企業や特定のモデルだけが危険なのではなく、最先端のAI技術全体が、サイバーセキュリティに関する新たな能力と脅威を生み出しているのです。これは、AI安全性の議論において重要な転換点となります。
また、この結果は、AI企業が自社モデルの独自性や危険性を強調することで、競争上の優位性を得ようとする動きに疑問を投げかけます。実際には、業界全体が同様の能力レベルに達している可能性があるからです。
できること・できないこと
現在の最先端AIモデルは、高度なサイバーセキュリティタスクを実行できるようになっています。具体的には、複雑なプログラムのリバースエンジニアリング、ウェブアプリケーションの脆弱性発見、暗号の解読などが可能です。企業ネットワークへの侵入をシミュレートする32段階の攻撃シナリオでも、一定の成功率を示しています。これらのタスクは、以前は高度な専門知識を持つ人間のハッカーにしかできなかったものです。
また、これらのAIモデルは、人間の支援なしで自律的に作業を進めることができます。GPT-5.5が10分余りで高難度の課題を解決した例は、AIが実際の攻撃シナリオで迅速に行動できることを示しています。コストも非常に低く、数ドル程度のAPI呼び出しで複雑なタスクを完了できます。
一方で、まだ難しいこともあります。発電所の制御システムを妨害するような、より高度で複雑なシナリオでは、現在のAIモデルはすべて失敗しています。これは、重要インフラへの直接的な攻撃には、まだAIだけでは対処できない複雑さがあることを示しています。また、AIが成功する確率は100パーセントではなく、The Last Onesテストでも成功率は20〜30パーセント程度です。
今後数年間で、これらの能力はさらに向上すると予想されます。AI技術の進化速度を考えると、現在は失敗している高度なタスクも、次世代のモデルでは成功する可能性があります。
私たちへの影響
このニュースは、企業のセキュリティ担当者、IT管理者、そして一般のインターネットユーザーに重要な影響を与えます。最先端のAI技術が広く利用可能になることで、サイバー攻撃の脅威が増大する可能性があるからです。
短期的な影響については、企業はセキュリティ対策を強化する必要があります。AIが自動的に脆弱性を発見し、攻撃を実行できるようになると、従来の防御手段では不十分になる可能性があります。特に、ウェブアプリケーションのセキュリティ、ネットワークの監視、異常検知システムの強化が急務となります。セキュリティパッチの適用も、これまで以上に迅速に行う必要があります。
中長期的な影響としては、サイバーセキュリティの専門家の役割が変化することが考えられます。AIが基本的な攻撃や防御を自動化できるようになると、人間の専門家はより高度な戦略的判断や、AIでは対処できない複雑な問題に集中することになるでしょう。また、AI同士の攻防が主戦場となる「AIサイバー戦争」の時代が到来する可能性もあります。
ただし、過度に恐れる必要はありません。OpenAIやAnthropicなどの企業は、悪意ある使用を防ぐための制限を設けています。OpenAIは「Trusted Access for Cyber」プログラムを通じて、正当な防御目的でのみ高度な能力を提供しようとしています。5月15日、アルトマンCEOは、GPT-5.5-Cyberの初期リリースも「今後数日以内に重要なサイバー防御担当者に限定する」とソーシャルメディアで述べました。
また、今回の研究結果は、特定のモデルだけが危険なのではなく、AI技術全般が進化していることを示しています。これは、業界全体で協力して安全対策を講じる必要があることを意味します。個々の企業が独自に対策を講じるだけでなく、国際的な協力体制の構築が重要になるでしょう。
