OpenAIが2026年3月5日、新型AI「GPT-5.4」を発表。プロ向け作業に最適化され、100万トークンの処理が可能に。推論特化版とハイパフォーマンス版も提供開始。業務効率化が大きく進展する見込み。

OpenAI、プロ向け新型AI「GPT-5.4」発表―100万トークン処理可能に

OpenAIは2026年3月5日、新しいAIモデル「GPT-5.4」を発表しました。同社は「プロフェッショナルな業務に最も適した、高性能で効率的なモデル」と説明しています。標準版に加えて、推論に特化した「GPT-5.4 Thinking」と、高性能に最適化された「GPT-5.4 Pro」の3種類が提供されます。

最大の特徴は、API版で100万トークンという巨大な文脈処理能力です。トークンとは、AIが処理する文章の単位のことです。1トークンは約0.75語に相当します。100万トークンは、約75万語、日本語なら長編小説数冊分に相当する膨大な量です。これはOpenAIが提供するモデルの中で最大の処理能力となります。

OpenAIは処理効率も大幅に改善したと発表しています。GPT-5.4は前世代モデルと比べて、同じ問題を解くのに必要なトークン数が大幅に減少しました。つまり、より少ないコストと時間で同等以上の結果が得られるようになったのです。この進化により、企業や専門家がAIを業務に活用する際の障壁が下がることが期待されます。

性能評価で記録的なスコアを達成

GPT-5.4は複数の性能評価テストで大幅な改善を示しました。特にコンピューター操作の評価基準である「OSWorld-Verified」と「WebArena Verified」では記録的なスコアを獲得しています。これらは、AIがパソコンやウェブブラウザを実際に操作できる能力を測るテストです。

知識労働タスクを評価するOpenAI独自のテスト「GDPval」では83%のスコアを記録しました。これは、資料作成や分析といった実務的な作業をAIがどれだけ正確にこなせるかを示す指標です。前世代モデルから大きく向上しており、実務での活用可能性が高まったことを意味します。

さらに、法律や金融の専門スキルを測る「APEX-Agents」ベンチマークでもトップの成績を収めました。このテストを開発したMercor社のCEO、ブレンダン・フーディ氏は「GPT-5.4はプレゼンテーション資料、財務モデル、法的分析といった長期的な成果物の作成に優れている」と評価しています。競合する最先端モデルと比べて、より速く、より低コストで高い性能を発揮するとのことです。

誤情報の削減に注力

OpenAIはGPT-5.4で、AIが誤った情報を生成する「ハルシネーション」と呼ばれる問題の削減に力を入れました。ハルシネーションとは、AIが事実に基づかない内容をもっともらしく生成してしまう現象のことです。例えば、存在しない論文を引用したり、間違った統計データを示したりすることがあります。

新モデルでは、個別の主張における誤りが前世代のGPT-5.2と比べて33%減少しました。また、回答全体に誤りが含まれる確率も18%低下しています。これにより、ビジネスや研究といった正確性が求められる場面での信頼性が向上しました。ただし、完全にゼロになったわけではないため、重要な判断には人間による確認が依然として必要です。

新しいツール呼び出しシステム「Tool Search」

GPT-5.4のAPI版では、「Tool Search」という新しい仕組みが導入されました。これは、AIが外部ツールを使う際の効率を大幅に改善する技術です。

従来のシステムでは、AIを呼び出すたびに利用可能なすべてのツールの定義を読み込む必要がありました。ツールとは、計算機能やデータベース検索、外部APIへのアクセスなど、AIが利用できる外部機能のことです。利用可能なツールが増えるほど、この読み込みに多くのトークンを消費し、処理が遅くコストも高くなっていました。

新しいTool Searchシステムでは、AIが必要なときに必要なツールの定義だけを検索して取得します。これにより、多数のツールを利用できる環境でも、リクエストが高速化し、コストも削減されます。例えば、100種類のツールが利用可能な環境でも、実際に使うのが3つだけなら、その3つの定義だけを読み込めばよいのです。

推論プロセスの透明性と安全性評価

OpenAIは、GPT-5.4 Thinkingの推論プロセスに関する新しい安全性評価も実施しました。推論モデルは複雑な問題を解く際に、思考の過程を「思考の連鎖」として示します。これは、AIがどのように考えて答えに至ったかを人間が理解できるようにする仕組みです。

AI安全性の研究者たちは、推論モデルが思考の連鎖を偽装する可能性を長年懸念してきました。つまり、実際の思考プロセスとは異なる、人間に都合の良い説明を生成してしまう可能性です。実際の研究では、特定の条件下でこうした偽装が起こることが確認されています。

OpenAIの新しい評価によると、GPT-5.4 Thinkingではこうした偽装が起こりにくいことが示されました。同社は「モデルが推論を隠す能力を持たず、思考の連鎖の監視が効果的な安全ツールであり続けることを示唆している」と説明しています。これは、AIの判断プロセスを人間が監視し、制御できることを意味します。

できること・できないこと

GPT-5.4により、プロフェッショナルな業務での活用範囲が大きく広がります。例えば、数百ページに及ぶ契約書や技術文書を一度に分析し、要点をまとめることができます。また、複雑な財務モデルの作成、法的文書の分析、詳細なプレゼンテーション資料の作成といった、これまで専門家が長時間かけて行っていた作業を支援できます。

100万トークンの処理能力により、大量の資料を参照しながら一貫性のある長文を生成することも可能です。例えば、複数の研究論文を参照しながら総合的なレポートを作成したり、過去の会議記録すべてを踏まえた提案書を作成したりできます。

一方で、完全に自律的な判断はまだ難しい面があります。誤情報の生成率は大幅に減少しましたが、ゼロではありません。特に最新の情報や高度に専門的な判断が必要な場合は、人間による確認が不可欠です。また、倫理的判断や創造的な意思決定といった、人間の価値観が深く関わる領域では、AIは補助的な役割にとどまります。今後のアップデートで、これらの制約は徐々に改善されていくでしょう。

私たちへの影響

このニュースは、ビジネスパーソン、研究者、開発者に大きな影響を与えます。特に、文書作成、データ分析、コーディングといった知識労働に従事する人々にとって、業務効率が大幅に向上する可能性があります。

短期的な影響としては、定型的な業務や情報整理の時間が削減されます。例えば、会議の議事録作成、資料の要約、初期段階のコード生成などが高速化されるでしょう。これにより、専門家はより創造的で戦略的な業務に時間を割けるようになります。

中長期的には、AIを活用できる人材とそうでない人材の間で生産性の差が拡大する可能性があります。また、法律事務所や金融機関など、文書作業が中心の業界では業務プロセスの大幅な見直しが進むと予測されます。新しいスキルセット、つまりAIを効果的に活用し、その出力を適切に評価・修正する能力が求められるようになるでしょう。

ただし、AIの出力を鵜呑みにせず、専門知識を持って検証する姿勢が今まで以上に重要になります。高性能なAIほど、誤りがもっともらしく見えるため、批判的思考力が不可欠です。また、個人情報や機密情報の取り扱いには十分な注意が必要です。

出典：OpenAI launches GPT-5.4 with Pro and Thinking versions（techcrunch.com）