Googleが2026年2月19日、AI言語モデル「Gemini 3.1 Pro」を発表。推論性能が前モデルの2倍以上に向上し、ベンチマークテストで高得点を記録。日常業務での利用を想定した新モデルとして注目を集めています。
Google、推論性能が2倍に向上した「Gemini 3.1 Pro」を発表
Googleは2026年2月19日、新しいAI言語モデル「Gemini 3.1 Pro」を発表しました。このモデルは、前バージョンの「Gemini 3 Pro」と比較して、推論性能が2倍以上に向上したことが特徴です。推論性能とは、AIが論理的に考えて答えを導き出す能力のことです。例えば、複雑な問題を段階的に解いたり、新しい状況に対して適切な判断を下したりする力を指します。
Gemini 3.1 Proは、ARC-AGI-2という業界標準のベンチマークテストで77.1%のスコアを記録しました。このテストは、AIが今まで見たことのない新しい論理パターンを理解できるかを測るものです。前モデルのGemini 3は2025年11月のリリース以来、競合他社のモデルを上回る性能を示してきましたが、今回の3.1 Proはさらなる進化を遂げています。
この発表は、AI業界における激しい開発競争の一環です。Googleはわずか1週間前にも「Gemini 3 Deep Think」の大幅アップグレードを発表したばかりで、化学や物理学などの科学分野での能力向上を実現していました。3.1 Proは、そうした高度な科学計算を支える基盤となる「コア知能」として位置づけられています。
ただし、AI業界では新しいモデルが次々と登場するため、現在のトップ性能も相対的なものに過ぎません。OpenAIの次期モデル「GPT 5.3」の発表も控えており、競争はさらに激化すると予想されます。それでも、日常業務での使いやすさを重視した3.1 Proの登場は、一般ユーザーや企業にとって実用的な選択肢となるでしょう。
Gemini 3.1 Proの性能向上の詳細
Gemini 3.1 Proの最大の特徴は、推論性能の大幅な向上です。Googleの発表によれば、ARC-AGI-2ベンチマークテストで77.1%のスコアを達成しました。これは、前モデルのGemini 3 Proと比較して2倍以上の性能向上を意味します。ARC-AGI-2とは、AIが完全に新しい論理パターンに直面したときに、どれだけ適切に対応できるかを測定するテストです。
さらに、Gemini 3.1 Proは「Humanity’s Last Exam(HLE)」という別のベンチマークテストでも44.4%のスコアを記録しました。HLEは、従来のベンチマークテストが簡単になりすぎたという問題を解決するために開発された、より厳格なテストです。人間の能力に対してAIがどこまで到達しているかを測ることを目的としています。前モデルのGemini 3が2025年末に記録した38.3%から、約6ポイントの向上を実現しました。
ただし、競合他社との比較では、まだ課題も残っています。AnthropicのClaude Opus 4.6は、AI安全性センター(CAIS)のテキスト能力リーダーボードで依然としてトップの座を維持しています。このリーダーボードは、推論能力やその他のテキスト処理能力に関する複数のベンチマークスコアを平均化したものです。また、安全性評価においても、AnthropicのClaude Opus 4.5、Sonnet 4.5、Opus 4.6がGemini 3を上回っています。
背景と経緯
Googleは2025年11月にGemini 3をリリースし、AI言語モデル市場で大きな注目を集めました。Gemini 3は、MicrosoftのCopilotなど競合モデルとの比較テストで優れた結果を示し、ユーザーからも高い評価を受けていました。その成功を受けて、Googleは短期間で次々とアップデートを重ねています。
わずか1週間前の2026年2月12日には、「Gemini 3 Deep Think」の大幅アップグレードが発表されました。このアップグレードは、化学や物理学などの科学分野での能力向上に焦点を当てたもので、数学やコーディングでも新たな成果を達成しました。Googleによれば、Deep Thinkは「明確な正解が存在しない、あるいはデータが不完全な難しい研究課題」に対応するために開発されたとのことです。
今回発表されたGemini 3.1 Proは、そのDeep Thinkを支える基盤技術として位置づけられています。Deep Thinkは「モード」であり、AIモデルそのものではありません。モードとは、特定の用途に特化した動作方式のことです。Deep Thinkモードは、より長い推論時間をかけることで、科学や工学の重い計算タスクに対応します。一方、3.1 Proは日常的な使用を想定した汎用モデルとして設計されています。
AI業界全体では、ベンチマークテストの限界が指摘されるようになっています。従来の標準テストが簡単になりすぎて、モデル間の真の性能差を測りにくくなったためです。そのため、HLEのような新しい、より厳格なテストが開発されています。しかし、専門家は「ベンチマークスコアだけでは実際の性能は判断できない」と指摘しています。
技術的な詳細
Gemini 3.1 Proは、前モデルのGemini 3の基盤技術を継承しつつ、推論能力を大幅に強化したモデルです。推論能力とは、与えられた情報から論理的に結論を導き出す力のことです。例えば、「AはBより大きく、BはCより大きい」という情報から「AはCより大きい」と結論づけるような能力を指します。
3.1 Proと先週アップグレードされたDeep Thinkモードの違いは、用途と処理方式にあります。Deep ThinkモードはARC-AGI-2テストで84.6%、HLEテストで48.4%と、3.1 Proよりも高いスコアを記録しています。しかし、Deep Thinkは長い推論時間を必要とするため、科学研究や複雑なエンジニアリング問題など、時間をかけても正確な答えが必要な場面に適しています。
一方、3.1 Proは日常的な使用を想定して設計されています。ビジネス文書の作成、プログラミングの支援、質問への回答など、迅速なレスポンスが求められる場面での利用を目的としています。そのため、Deep Thinkほどの高スコアではないものの、実用的な速度と十分な精度のバランスを実現しています。
技術的には、3.1 ProはGoogleのAPI(アプリケーション・プログラミング・インターフェース)を通じて提供されます。APIとは、異なるソフトウェア同士が情報をやり取りするための仕組みのことです。開発者は、このAPIを使って自分のアプリケーションにGemini 3.1 Proの機能を組み込むことができます。
できること・できないこと
Gemini 3.1 Proにより、日常的な業務での高度なAI支援が可能になります。例えば、複雑なビジネス文書の作成、プログラミングコードの生成と修正、データ分析結果の解釈、多言語翻訳などが挙げられます。特に推論能力の向上により、単純な情報検索だけでなく、複数の情報を組み合わせて新しい洞察を導き出すような作業が得意になっています。
具体的には、マーケティング戦略の立案支援、技術文書の作成、顧客対応の自動化、教育コンテンツの生成などに活用できます。また、NotebookLM(Googleのノート作成ツール)やGeminiアプリを通じて、一般ユーザーも簡単に利用できるようになっています。企業向けには、Vertex AIやGemini Enterpriseを通じて、より高度な統合が可能です。
一方で、まだ難しいこともあります。最も高度な科学計算や研究課題については、Deep Thinkモードの方が適しています。また、競合他社のモデルと比較すると、安全性の面ではAnthropicのClaudeシリーズに後れを取っています。安全性とは、AIが有害な内容を生成しないようにする仕組みのことです。
さらに、ZDNET編集者のDavid Gewirtz氏が指摘するように、「テストの数値は大幅な改善を示しているが、実際の使用感は時間をかけて評価する必要がある」という点も重要です。現時点では、より高額なプランでのみ利用可能であり、一般ユーザーへの完全な展開はこれからです。また、OpenAIの次期モデル「GPT 5.3」が発表されれば、性能の相対的な位置づけが変わる可能性もあります。
私たちへの影響
このニュースは、AIツールを日常的に使用するビジネスパーソン、開発者、学生、研究者など幅広い層に影響を与えます。特に、より高度な推論能力を必要とする作業を行う人々にとって、実用的な選択肢が増えることになります。
短期的な影響については、すでにGoogleのAIツールを使用している企業や開発者が、より高性能なモデルにアクセスできるようになります。開発者は今日からGoogle AI Studio、Android Studio、Gemini CLIなどを通じてプレビュー版を試すことができます。企業ユーザーはVertex AIやGemini Enterpriseで利用可能です。一般ユーザーも、NotebookLMやGeminiアプリを通じて新モデルの恩恵を受けられます。
中長期的な影響としては、AI支援ツールの性能向上により、知識労働の効率が大幅に改善される可能性があります。複雑な問題解決、創造的な作業、データ分析などの分野で、人間とAIの協働がより深まるでしょう。教育分野では、個別指導の質が向上し、研究分野では仮説の検証や文献調査が効率化されることが期待されます。
ただし、いくつかの注意点があります。まず、ベンチマークスコアの向上が必ずしも実際の使用感の改善を意味するわけではありません。実際の業務での有用性は、時間をかけて評価する必要があります。また、AI業界の競争は激しく、数週間後には別の企業がさらに高性能なモデルを発表する可能性もあります。そのため、特定のモデルに過度に依存せず、複数の選択肢を比較検討することが賢明です。さらに、安全性の面では競合モデルに劣る部分もあるため、機密情報や重要な意思決定には慎重な利用が求められます。
