Googleが大規模言語モデルのメモリ使用量を最大6分の1に削減する圧縮技術「TurboQuant」を発表。品質を落とさずに処理速度を8倍向上。スマートフォンでのAI処理が大幅に改善される可能性。

Google、AI言語モデルのメモリを6分の1に削減する新技術「TurboQuant」を発表

Googleの研究部門は2026年3月、大規模言語モデル（LLM）のメモリ使用量を大幅に削減する新しい圧縮技術「TurboQuant」を発表しました。大規模言語モデルとは、ChatGPTやGeminiのような対話型AIの基盤となる技術のことです。この技術により、従来と比べてメモリ使用量を最大6分の1に削減し、処理速度を8倍に向上させることができます。最も重要な点は、これらの改善を実現しながらも、AIの出力品質を維持できることです。従来の圧縮技術では、メモリを節約すると必ず品質が低下するという問題がありました。TurboQuantはこの課題を解決する画期的な技術として注目されています。この技術が実用化されれば、スマートフォンのような限られたメモリしか持たない機器でも、高品質なAI処理が可能になると期待されています。

TurboQuantが解決する課題

生成AIモデルは膨大なメモリを必要とします。これが現在、コンピュータ用メモリの価格高騰を招いている一因となっています。特に問題となるのが「キーバリューキャッシュ」と呼ばれる部分です。Googleはこれを「デジタルのカンニングペーパー」と表現しています。AIモデルは実際には何も知識を持っていません。代わりに「ベクトル」という数学的な表現を使って、言葉の意味を記憶しています。ベクトルとは、複数の数値を並べたもので、言葉や概念の意味を数値化したものです。例えば「犬」と「猫」は似た概念なので、似たベクトルで表現されます。

高次元ベクトルは数百から数千の数値を含むことがあり、画像のピクセル情報や大規模なデータセットのような複雑な情報を表現できます。しかし、これらは大量のメモリを消費し、キーバリューキャッシュのサイズを膨らませ、処理速度を低下させます。開発者はこれまで「量子化」という技術を使ってモデルを小型化してきました。量子化とは、データの精度を下げることでサイズを小さくする手法です。しかし、精度を下げると出力品質も低下するという欠点がありました。TurboQuantは、Googleの初期テストにおいて、品質を落とすことなく処理速度を8倍向上させ、メモリ使用量を6分の1に削減することに成功しました。

技術的な仕組み：PolarQuantとQJL

TurboQuantは2段階のプロセスでAIモデルを圧縮します。第1段階は「PolarQuant」と呼ばれる技術です。通常、AIモデルのベクトルは標準的なXYZ座標系で表現されます。PolarQuantはこれを極座標系に変換します。極座標系とは、円形のグリッド上で位置を表す方法です。この方式では、ベクトルを2つの情報だけで表現できます。1つは「半径」（データの強度）、もう1つは「方向」（データの意味）です。

Googleは分かりやすい例えを提示しています。従来の座標系での道案内は「東に3ブロック、北に4ブロック進む」というものです。一方、極座標系では「37度の方向に5ブロック進む」となります。この表現の方が情報量が少なく、システムが行う複雑なデータ正規化の手順も省略できます。PolarQuantが圧縮の大部分を担当しますが、わずかな誤差が残ります。

第2段階では「量子化ジョンソン・リンデンシュトラウス（QJL）」という技術で誤差を修正します。これは1ビットの誤差修正層をモデルに適用するもので、各ベクトルを単一のビット（+1または-1）に削減しながら、データ間の関係を表す重要な情報は保持します。その結果、より正確な「アテンションスコア」が得られます。アテンションスコアとは、ニューラルネットワークがどのデータが重要かを判断する基本的なプロセスのことです。

テスト結果と性能

Googleは、GemmaとMistralというオープンソースのAIモデルを使って、長文処理のベンチマークテストを実施しました。TurboQuantはすべてのテストで完璧な結果を出し、キーバリューキャッシュのメモリ使用量を6分の1に削減しました。このアルゴリズムは、キャッシュをわずか3ビットまで圧縮でき、追加のトレーニングも不要です。つまり、既存のAIモデルにそのまま適用できるということです。

処理速度の面でも大きな改善が見られました。Nvidia H100アクセラレータ上で、4ビットのTurboQuantを使ったアテンションスコアの計算は、32ビットの圧縮なしの場合と比べて8倍高速でした。これらの数値は、実用レベルでの大幅な性能向上を示しています。

できること・できないこと

TurboQuantにより、AIモデルの運用コストを削減し、必要なメモリ量を大幅に減らすことが可能になります。例えば、現在はクラウドサーバーでしか動かせない高性能なAIモデルを、より小規模なサーバーや個人のコンピュータで動作させることができるようになります。また、スマートフォンのような限られたメモリしか持たない機器でも、高品質なAI処理が実現できます。

一方で、この技術が実際に広く使われるようになるには、いくつかの段階を経る必要があります。現時点では研究段階の技術であり、商用製品への実装はこれからです。また、企業がこの技術で空いたメモリを使って、さらに複雑で大規模なモデルを動かす可能性もあります。その場合、メモリ使用量の削減効果は相殺されてしまうかもしれません。実際の製品でどのように活用されるかは、今後の各企業の判断次第です。

私たちへの影響

このニュースは、AIを日常的に使う一般ユーザーと、AI技術を開発する企業の両方に影響を与えます。一般ユーザーにとって最も大きな影響は、スマートフォンでのAI体験の向上です。現在、多くのスマートフォンAI機能は、データをクラウドに送信して処理しています。TurboQuantが実装されれば、より多くの処理を端末内で完結できるようになり、プライバシーが向上し、通信コストも削減されます。

短期的な影響としては、AI開発企業のインフラコストが削減される可能性があります。同じハードウェアでより多くのユーザーにサービスを提供できるようになるためです。中長期的には、これまでAIを導入できなかった小規模な企業や個人開発者も、高度なAI機能を利用できるようになるでしょう。医療機器や自動車など、リアルタイム処理が必要で通信に頼れない分野でも、より高度なAI活用が進むと考えられます。

ただし、この技術が実際の製品に組み込まれ、私たちが恩恵を受けられるようになるまでには、まだ時間がかかります。研究成果が発表されてから実用化まで、通常は数ヶ月から数年を要します。また、すべてのAIサービスがこの技術を採用するとは限りません。それでも、AI技術の民主化と効率化に向けた重要な一歩であることは間違いありません。

出典：Google’s TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x（arstechnica.com）