OpenAI、Google対抗の最新AI「GPT-5.2」を公開―業務タスクの7割で人間並みの性能を実現

OpenAIが2025年12月、最新AI「GPT-5.2」を3種類のバージョンで公開。GoogleのGemini 3への対抗として開発され、70%の業務タスクで人間の専門家と同等の性能を実現。ChatGPT有料会員向けに提供開始。

OpenAI、Google対抗の最新AI「GPT-5.2」を公開―業務タスクの7割で人間並みの性能を実現

OpenAIは2025年12月12日、最新のAIモデル「GPT-5.2」を公開しました。このモデルは「Instant」「Thinking」「Pro」の3つのバージョンで提供され、ChatGPTの有料会員向けに展開されます。今回の公開は、GoogleのAI「Gemini 3」が複数のベンチマークで高い性能を示したことへの対抗措置として位置づけられています。OpenAIのサム・アルトマンCEOは今月初め、社内に「コードレッド」と呼ばれる緊急指令を出し、Gemini 3への対応を最優先課題としていました。GPT-5.2は、スプレッドシート作成、プレゼンテーション構築、コード記述、画像認識などの業務タスクにおいて、従来モデルより大幅に性能が向上しています。OpenAIの最高製品責任者フィジ・シモ氏は「人々により多くの経済的価値を提供するために設計した」と説明しています。この新モデルは、AI業界における競争が激化する中で、OpenAIが技術的優位性を維持しようとする取り組みの一環です。

GPT-5.2の3つのバージョンと特徴

GPT-5.2は、用途に応じて3つの異なるバージョンが用意されています。「Instant」は文章作成や翻訳など、素早い応答が必要なタスクに対応します。「Thinking」は、コーディングや数学など複雑な作業に取り組む際に、推論プロセスを示すテキストを出力します。これは、AIがどのように考えて答えを導き出したかを示すもので、より高度な問題解決に適しています。「Pro」は最も高精度な性能を目指したバージョンで、さらに詳細な推論テキストを生成し、難易度の高い問題に対応します。

GPT-5.2の技術的な特徴として、40万トークンのコンテキストウィンドウを備えています。トークンとは、AIが処理するテキストの単位のことです。40万トークンは、数百ページ分の文書を一度に処理できる能力を意味します。例えば、複数の報告書や契約書を同時に読み込んで分析することが可能になります。また、知識のカットオフ日は2025年8月31日となっており、それまでの情報を学習しています。

Googleとの競争激化が背景に

今回のGPT-5.2公開の背景には、AI業界における激しい競争があります。2025年12月初旬、GoogleのGemini 3モデルが複数のAI性能評価テストで高いスコアを記録し、市場シェアを拡大しました。これを受けて、アルトマンCEOは社内に「コードレッド」と呼ばれる緊急指令を発令しました。この指令により、ChatGPTの広告計画など他の取り組みを延期し、チャットボットの中核機能の改善に全社的なリソースを集中させることが決定されました。

OpenAIにとって、この競争は極めて重要な意味を持ちます。同社は今後数年間で1.4兆ドル(約210兆円)規模のAIインフラ構築に投資する計画を立てています。これは、OpenAIが技術的に明確な優位性を持っていた時期に決定された投資です。現在、GoogleのGeminiアプリは月間アクティブユーザー数が6億5000万人を超え、OpenAIのChatGPTは週間アクティブユーザー数が8億人と報告されています。両社は巨大な利用者基盤を持ち、その維持と拡大を競っています。

性能評価と競合他社との比較

OpenAIは、GPT-5.2の性能を示すために複数のベンチマーク結果を公開しました。ベンチマークとは、AIの性能を測定するための標準的なテストのことです。興味深いことに、公式ウェブサイトではGemini 3との直接比較は掲載されていませんが、報道陣向けの説明会では比較データが共有されました。

ソフトウェアエンジニアリングの能力を測る「SWE-Bench Pro」というテストでは、GPT-5.2 Thinkingが55.6%のスコアを記録しました。これに対し、Gemini 3 Proは43.3%、AnthropicのClaude Opus 4.5は52.0%でした。大学院レベルの科学知識を測る「GPQA Diamond」では、GPT-5.2が92.4%、Gemini 3 Proが91.9%と、僅差での優位を示しています。

OpenAIが新たに開発した「GDPval」というベンチマークでは、44の職業にわたる専門的な業務タスクを評価します。この評価において、GPT-5.2 Thinkingは70.9%のタスクで人間の専門家と同等かそれ以上の性能を発揮したとされています。Gemini 3 Proは53.3%でした。さらに、OpenAIはこれらのタスクを人間の専門家の11倍以上の速度で、コストは1%未満で完了できると主張しています。

信頼性の向上と課題

GPT-5.2では、誤った情報を生成する「ハルシネーション」と呼ばれる現象が38%減少したとOpenAIは報告しています。ハルシネーションとは、AIが事実ではない情報をあたかも真実であるかのように生成してしまう問題のことです。例えば、存在しない論文を引用したり、架空の統計データを示したりすることがあります。OpenAIのポストトレーニング責任者マックス・シュワルツァー氏は、GPT-5.2は前バージョンのGPT-5.1と比べて「大幅にハルシネーションが少ない」と述べています。

ただし、ベンチマーク結果の解釈には注意が必要です。企業が公開するベンチマークは、自社製品に有利な形で提示される傾向があります。また、AIの性能を客観的に測定する科学的手法は、企業が主張する「人間のようなAI能力」に追いついていないのが現状です。OpenAI以外の独立した研究者による評価結果が出るまでには時間がかかるでしょう。

できること・できないこと

GPT-5.2により、業務における様々なタスクの自動化や効率化が可能になります。例えば、複数の文書を同時に分析して要約を作成したり、データからグラフやプレゼンテーション資料を自動生成したりすることができます。プログラミングの分野では、コードの記述だけでなく、既存コードのバグ発見や改善提案も行えます。画像認識機能も向上しており、写真や図表から情報を読み取って文章化することも可能です。長い文脈を理解する能力が高まったため、長時間の会話や複雑な指示にも対応できるようになりました。

一方で、まだ完全ではない部分もあります。ハルシネーションは減少したものの、完全には解消されていません。特に専門性の高い分野や最新の情報については、誤った内容を生成する可能性があります。また、知識のカットオフ日が2025年8月31日であるため、それ以降の出来事については学習していません。創造性が求められる芸術的な作業や、人間の感情に深く関わる判断については、依然として人間の方が優れている場合が多いでしょう。今後のアップデートで、これらの制約は徐々に改善されていくと予想されます。

私たちへの影響

このニュースは、ChatGPTを業務で利用している人々や、AI技術の動向に関心を持つ人々に直接的な影響を与えます。GPT-5.2は有料会員向けに提供されるため、月額料金を支払っているユーザーは、より高性能なAIツールを利用できるようになります。API経由で開発者が利用する場合、料金は100万入力トークンあたり1.75ドルとなり、GPT-5.1から40%の値上げとなります。

短期的な影響については、業務効率の向上が期待できます。文書作成、データ分析、プログラミングなどの作業時間が短縮され、より創造的な業務に時間を割けるようになるでしょう。中長期的な影響としては、AI技術の進化により、知識労働の在り方が大きく変化する可能性があります。定型的な業務はAIが担い、人間はより高度な判断や創造的な活動に専念する働き方が一般化するかもしれません。

ただし、AIに過度に依存することには注意が必要です。生成された内容は必ず人間が確認し、特に重要な決定や専門的な内容については、専門家の意見を求めることが重要です。また、OpenAIとGoogleの競争が激化する中で、モデルの更新頻度が高まっており、GPT-5.2も8月以降で3回目の大規模リリースとなります。利用者は頻繁な変更に対応する必要があるでしょう。旧バージョンのGPT-5.1は3か月間利用可能ですが、その後は新モデルへの移行が求められます。

出典:OpenAI releases GPT-5.2 after “code red” Google threat alert(arstechnica.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です