Google、AI専用チップ「TPU第8世代」を発表―学習用と推論用の2種類で効率化

Googleが2026年4月、AI処理専用チップ「TPU」の第8世代を発表。学習用と推論用の2種類を開発し、処理速度と電力効率を大幅に向上。AI開発コストの削減と「エージェント時代」への対応を目指す。

Google、AI専用チップ「TPU第8世代」を発表―学習用と推論用の2種類で効率化

Googleは2026年4月、AI処理専用チップ「TPU(Tensor Processing Unit)」の第8世代を発表しました。今回の発表で注目すべきは、従来の単一チップ構成から、学習用の「TPU 8t」と推論用の「TPU 8i」という2種類のチップに分けた点です。これは、AIモデルの開発工程と実際の運用では必要な処理能力が大きく異なるため、それぞれに最適化したチップを用意することで、全体の効率を高める狙いがあります。Googleはこの新世代チップを「エージェント時代」に対応した設計と位置づけており、複数の専門的なAIエージェントを同時に動かす用途を想定しています。第7世代の「Ironwood」と比べて、学習速度は約3倍、電力効率は2倍に向上したとしており、AI開発にかかる時間とコストの削減が期待されます。この技術革新は、AI開発企業だけでなく、将来的にはAIサービスを利用する私たち一般ユーザーにも、より高速で低コストなAIサービスとして恩恵をもたらす可能性があります。

2種類のチップで役割を分担

第8世代TPUの最大の特徴は、学習用と推論用でチップを分けたことです。TPU 8tは「training(学習)」の頭文字で、AIモデルを一から作り上げる学習工程に特化しています。一方、TPU 8iは「inference(推論)」の頭文字で、完成したAIモデルを実際に動かして結果を出す工程に最適化されています。

AIモデルの開発は大きく2つの段階に分かれます。最初の「学習」段階では、膨大なデータを使ってモデルに知識を教え込みます。この作業には非常に高い計算能力が必要で、数か月かかることもあります。次の「推論」段階では、完成したモデルを使って実際の質問に答えたり、画像を生成したりします。こちらは学習ほどの計算能力は必要ありませんが、素早く応答することが求められます。

従来は同じチップで両方の作業をしていましたが、これは非効率でした。例えるなら、重い荷物を運ぶトラックで宅配便の配達もしているようなものです。Googleは用途に応じて最適なチップを使い分けることで、全体の効率を高めようとしています。

TPU 8tの性能向上

学習用のTPU 8tは、AIモデルの開発期間を大幅に短縮します。Googleによれば、最先端のAIモデルの学習にかかる時間を「数か月から数週間」に短縮できるとしています。

TPU 8tを搭載したサーバー群(Googleは「ポッド」と呼んでいます)には、9,600個のチップが搭載され、2ペタバイト(2,000兆バイト)の高速メモリを共有します。さらに驚くべきことに、最大100万個のチップを1つの論理的なまとまりとして動かせる拡張性を持っています。これにより、1つのポッドあたり121 FP4 EFlopsという計算能力を実現しており、これは第7世代の約3倍に相当します。

EFlopsとは、1秒間に実行できる浮動小数点演算の回数を表す単位で、数値が大きいほど高性能です。FP4は4ビット浮動小数点演算を意味し、AI学習に適した計算方式です。

効率面でも改善があります。Googleは「goodpute(有効計算率)」が97%に達したと発表しています。これは、チップに供給した電力のうち97%が実際のAI学習に使われ、無駄な待ち時間やエラー処理が3%以下に抑えられているという意味です。不規則なメモリアクセスの改善、ハードウェア障害の自動処理、全チップのリアルタイム監視などにより、学習作業が中断されることなく進むようになりました。

TPU 8iの特徴

推論用のTPU 8iは、完成したAIモデルを効率的に動かすことに特化しています。学習用のTPU 8tほどの計算能力は必要ないため、設計思想が異なります。

TPU 8iのポッドには1,152個のチップが搭載され、1ポッドあたり11.6 EFlopsの計算能力を持ちます。これはTPU 8tの約10分の1ですが、推論作業には十分な性能です。第7世代のIronwoodでは推論用ポッドに256個のチップしか搭載されていなかったため、規模は大幅に拡大しています。

TPU 8iの重要な改良点は、チップ内のSRAM(高速メモリ)を3倍の384MBに増やしたことです。SRAMとは、チップの内部にある非常に高速なメモリのことです。AIモデルが長い文章を処理する際、過去の文脈情報を「キーバリューキャッシュ」として保存しますが、この情報をチップ内の高速メモリに保持できれば、外部メモリにアクセスする必要がなくなり、応答が速くなります。

また、第8世代TPUは、GoogleのカスタムARM CPU「Axion」と組み合わせて使われます。TPU 2個につきCPU 1個という構成で、第7世代のx86 CPU 1個につきTPU 4個という構成から変更されました。GoogleはこのARM基盤の「フルスタック」アプローチにより、さらなる効率化を実現したとしています。

背景と経緯

多くのAI企業がNvidia製のAI専用チップ(GPUベースのアクセラレーター)を大量に購入している中、Googleは独自路線を歩んでいます。同社のクラウドAIインフラの大部分は、自社開発のTPUで構成されています。

Googleは2025年に第7世代の「Ironwood」を発表したばかりですが、わずか1年で第8世代に移行しました。この急速な進化の背景には、AI技術の急速な発展と、それに伴う競争の激化があります。特にGoogleは、今後のAI技術が「エージェント時代」に入ると予測しています。

「エージェント時代」とは、単一の汎用AIではなく、特定の作業に特化した複数のAIエージェントが協力して動く時代を指します。例えば、メール対応専門のエージェント、スケジュール管理専門のエージェント、データ分析専門のエージェントなどが、それぞれの得意分野で働くイメージです。このような使い方では、多数のAIモデルを同時に効率よく動かす必要があり、従来のチップ設計では対応しきれないとGoogleは考えています。

AI開発には莫大なコストがかかります。学習には数か月の時間と大量の電力が必要で、その投資に見合うリターンが得られるかは不透明です。多くの企業がAIに巨額の資金を投じていますが、いつ収益化できるかは誰にもわかりません。Googleの新TPUは、この効率性の問題に正面から取り組む試みと言えます。

電力と水の効率化

AI処理には膨大な電力が必要で、これが環境面での大きな懸念となっています。第8世代TPUは、第7世代のIronwoodと比べて、1ワットあたりの性能が2倍になったとGoogleは主張しています。

さらに、Googleはデータセンター全体の設計も見直しました。ネットワーク機能と計算機能を1つのチップに統合したり、ポッドの配置を最適化したりすることで、電力1単位あたりの計算能力を6倍に高めたとしています。ただし、これはデータセンター全体の消費電力が減るという意味ではなく、同じ電力でより多くの計算ができるようになったという意味です。実際には、AI需要の増加に伴い、データセンターの総消費電力は増え続ける可能性が高いでしょう。

冷却用の水の使用量も重要な課題です。AIサーバーが発する熱は非常に大きく、空気だけでは冷やしきれないため、液体冷却が必須です。Googleは第4世代の液体冷却システムを新チップに適応させ、作業負荷に応じて水の流量を自動調整する弁を導入しました。これにより、必要な時だけ多くの水を流し、それ以外の時は節約できるようになっています。

できること・できないこと

この新しいTPUにより、AI開発者は大規模なAIモデルをより短期間で、より少ない電力で学習させることが可能になります。例えば、これまで3か月かかっていたモデルの学習が数週間で完了すれば、開発サイクルが大幅に短縮され、新しいアイデアを素早く試せるようになります。また、複数の専門的なAIエージェントを同時に動かすアプリケーションも、より効率的に実現できるでしょう。

推論用のTPU 8iは、長い文脈を扱うAIモデルの応答速度を向上させます。例えば、長い文書を要約したり、複雑な質問に答えたりする際、過去のやり取りを記憶しながら素早く応答できるようになります。チップ内の高速メモリが増えたことで、外部メモリへのアクセス回数が減り、待ち時間が短縮されるためです。

一方で、これらのチップは主にGoogle自身とそのクラウドサービスの顧客向けに設計されており、一般の開発者が直接購入して使えるものではありません。GoogleのクラウドサービスであるGoogle Cloud Platform経由で利用する形になります。また、既存のソフトウェアをそのまま動かせるわけではなく、JAX、MaxText、PyTorch、SGLang、vLLMといった特定のフレームワークに対応しています。

効率化が進んだとはいえ、AI開発と運用には依然として大量の電力と水が必要です。環境への負荷が完全になくなったわけではなく、むしろAI利用の拡大に伴い、総量としては増加する可能性があります。2026年中にさらなる改善が見込まれますが、根本的な解決にはまだ時間がかかるでしょう。

私たちへの影響

このニュースは、AI技術を使うすべての人に、間接的ながら重要な影響を与えます。GoogleのGeminiをはじめとするAIサービスを利用している人にとっては、将来的により高速で正確な応答が期待できるでしょう。

短期的な影響については、Google Cloud Platformを使ってAI開発をしている企業や開発者が、より効率的にモデルを学習させられるようになります。これにより、新しいAIサービスの開発スピードが上がり、市場に登場する製品の種類が増える可能性があります。また、学習コストが下がれば、これまで予算的に難しかった実験的なプロジェクトにも挑戦しやすくなるでしょう。

中長期的な影響としては、AIサービスの価格低下や品質向上が考えられます。効率化によってコストが下がれば、その分をサービス価格に反映したり、より高度な機能を提供したりできるようになります。特に「エージェント時代」が本格化すれば、私たちの日常生活やビジネスで、複数の専門AIが協力して働く場面が増えるかもしれません。例えば、メール管理、スケジュール調整、情報収集などを、それぞれ専門のAIエージェントが担当し、連携して動くような使い方です。

ただし、注意すべき点もあります。Googleの発表は主に技術的な性能向上を強調していますが、実際のサービス品質や価格にどう反映されるかは、今後の展開次第です。また、AI技術への投資が過熱している現状を「バブル」と見る専門家もおり、持続可能なビジネスモデルが確立されるかは不透明です。Googleの発表後、競合のNvidiaの株価が一時1.5%下落しましたが、すぐに回復しており、市場全体としてはAI投資への熱は冷めていません。この技術革新が本当に社会に価値をもたらすのか、それとも一時的な熱狂に終わるのか、今後数年の動向を注視する必要があるでしょう。

出典:Google unveils two new TPUs designed for the “agentic era”(arstechnica.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です