「世界最高のコーディングAI」Claude Opus 4.5、基本テストで50%が不合格に

米Anthropic社が「世界最高のコーディングAI」と発表したClaude Opus 4.5を、技術ライターが4つの基本的なプログラミングテストで検証。結果は50%が不合格。ファイル処理の不具合や基本的なコード生成の失敗が明らかに。

「世界最高のコーディングAI」Claude Opus 4.5、基本テストで50%が不合格に

2025年11月24日、米国の技術メディアZDNETのシニアエディターが、Anthropic社の最新AI「Claude Opus 4.5」を検証しました。Anthropic社は「世界最高のコーディングモデル」と宣伝していましたが、実際には4つの基本的なプログラミングテストのうち2つで不合格となりました。テストでは、WordPressプラグインの作成でファイルのダウンロードが機能せず、生成されたコードも動作しませんでした。また、通貨入力を検証する簡単なJavaScript関数の修正でも、多くのケースで正しく動作しないコードを生成しました。この結果は、AI開発企業の宣伝文句と実際の性能との間に大きなギャップがあることを示しています。開発者がAIコーディングツールを選ぶ際には、企業の主張を鵜呑みにせず、実際の検証が必要であることを示唆しています。

検証の概要と結果

ZDNETのデビッド・ゲヴィルツ氏は、AIモデルのコーディング能力を測る標準的な4つのテストを実施しました。これらは比較的簡単なプログラミング課題で、基本的なスキルとフレームワークの知識を確認するものです。テスト1はWordPressプラグインの作成、テスト2はJavaScript関数の修正、テスト3はPHPとWordPressのバグ特定、テスト4はAppleScriptとChromeの連携でした。

結果は4つのうち2つが合格、2つが不合格でした。合格率50%という数字は、Anthropic社が主張する「世界最高のコーディングモデル」という評価とは大きく異なります。特に、テスト1と2の失敗は基本的な機能の欠陥を示しており、実務での使用には注意が必要です。

WordPressプラグイン作成での失敗

最初のテストでは、管理画面にインターフェースを表示し、名前をランダム化する簡単なWordPressプラグインの作成を依頼しました。Opus 4.5は312行のPHPファイル、178行のJavaScriptファイル、133行のCSSファイルを生成しました。しかし、複数の問題が発生しました。

まず、生成されたファイルのダウンロードが「Failed to download files」というエラーで失敗しました。次に、ファイルワークスペースからアクセスしようとしても「No file content available」と表示され、コードにアクセスできませんでした。コードを個別に取得するよう依頼したところ、JavaScriptファイルにコメントアウトされていないドキュメントが混入しており、そのまま実行すると動作しない状態でした。

余分な部分を削除してプラグインを読み込むと、ユーザーインターフェースは表示されました。しかし、肝心の「Randomize Lines」ボタンをクリックしても何も起こらず、「Clear All」ボタンも機能しませんでした。つまり、見た目は作られたものの、実際の機能は全く動作しない状態でした。

JavaScript関数修正での不完全な対応

2つ目のテストでは、ドルとセントの通貨入力を検証するJavaScript関数の修正を依頼しました。元のコードはセントの入力を許可しない不具合がありました。Opus 4.5が返したコードは、多くのエッジケースとは、通常とは異なる特殊な入力パターンのことです。例えば「12.」や「.5」といった入力を正しく処理できませんでした。

具体的には、「12.」という入力を拒否しましたが、これは12ドルとして有効です。「.5」も拒否しましたが、50セントとして有効です。「000.5」は拒否する一方で「0.5」は受け入れるという一貫性のない動作でした。さらに、「12.345」のような入力で端数を切り捨てたり四捨五入したりせず、単に拒否しました。

最も深刻な問題は、値が渡されなかった場合やnull値とは、データが存在しないことを示す特殊な値のことです。が渡された場合、エラーを返すのではなくプログラム全体がクラッシュする点でした。これは実務では致命的な欠陥です。

成功した2つのテスト

一方で、Opus 4.5は残り2つのテストには合格しました。テスト3では、PHPとWordPressフレームワークの深い知識が必要なバグの特定を求めました。これは複数段階の分析が必要で、表面的な問題ではなくフレームワークの動作に関わる深い部分のバグでした。Opus 4.5はこの課題を正しく解決しました。

テスト4では、AppleScript、Chrome、Keyboard Maestroという3つのプログラムを連携させるコードの作成を依頼しました。Keyboard MaestroはMacで作業を自動化するユーティリティソフトです。この課題は多くのAIが大文字小文字の区別で失敗する難しいテストですが、Opus 4.5は正確に理解し、正しいコードを生成しました。

背景と経緯

Anthropic社は2025年11月、Claude Opus 4.5を「世界最高のコーディングモデル」として発表しました。同社は「インテリジェントで効率的、コーディング、エージェント、コンピュータ使用において世界最高のモデル」と主張しています。

興味深いことに、検証者のゲヴィルツ氏は、Anthropicの下位モデルであるSonnetでは比較的良好な結果を得ていました。通常、高価格帯の上位モデルは下位モデルより優れた性能を示すはずですが、Opusシリーズは過去のテストでも期待外れの結果が続いていました。

AI業界では、各社が自社モデルの優位性を競って宣伝しています。しかし、マーケティング上の主張と実際の性能との間にギャップがあるケースが増えています。今回の検証は、そうした現状を浮き彫りにしました。

できること・できないこと

Claude Opus 4.5は、フレームワークの深い知識が必要な問題分析や、複数のプログラムを連携させるコード生成では優れた能力を示しました。特に、WordPressとPHPの内部動作に関する理解や、AppleScriptとMacアプリケーションの連携では正確なコードを生成できます。

一方で、基本的なファイル操作やダウンロード機能には重大な不具合があります。生成したファイルをユーザーが取得できない、コードに余分な文字列が混入するといった問題が発生します。また、エッジケースの処理が不完全で、実務で必要とされる堅牢性に欠けています。

エージェント環境とは、AIが自律的にタスクを実行できる環境のことです。でプロフェッショナルなプログラマーが監督し、何度も修正を指示すれば良い結果が得られる可能性があります。実際、検証者はClaude CodeとSonnet 4.5の組み合わせで印象的な結果を得ていますが、正しい答えを得るまでに3回から10回の修正指示が必要だったと報告しています。

私たちへの影響

このニュースは、AIコーディングツールを使用する開発者や、AIツールの導入を検討している企業に重要な示唆を与えます。企業の宣伝文句を鵜呑みにせず、実際の業務で使用する前に十分な検証が必要です。

短期的には、Claude Opus 4.5を使用する際は、生成されたコードを必ず人間が確認し、テストする必要があります。特にファイル操作やエッジケースの処理については注意深いチェックが不可欠です。単純な作業の自動化には使えますが、重要なシステムの開発には慎重な判断が求められます。

中長期的には、AI開発企業が性能を正確に伝える責任が問われるでしょう。ユーザーコミュニティによる独立した検証の重要性も高まります。AIコーディングツールは進化を続けていますが、現時点では人間の監督なしに完全に信頼できるレベルには達していません。

ただし、今回の結果は特定のテスト環境での評価であり、他の用途や条件では異なる結果になる可能性があります。また、AIモデルは頻繁に更新されるため、今後の改善にも注目する必要があります。

出典:Is Opus 4.5 really ‘the best model in the world for coding’? It just failed half my tests(www.zdnet.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です