Google、LLMメモリを6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表——精度ゼロ劣化・訓練不要でKVキャッシュを3ビットに圧縮

2026.03.30
2026.04.01
DX・AI テクノロジー

GoogleのResearch部門は2026年3月24日、大規模言語モデル（LLM）のメモリ消費を大幅に削減する新たな圧縮アルゴリズム「TurboQuant」を発表した。訓練やファインチューニングを必要とせず、モデルの精度を損なうことなくKV（キーバリュー）キャッシュのメモリ使用量を最大6分の1に削減できるとしており、ICLR 2026での発表も予定されている。

LLMの推論処理において、KVキャッシュはトークン生成のたびに過去の計算結果を保存する作業メモリとして機能する。コンテキスト長が増加するにつれてKVキャッシュのサイズも比例して膨張し、メモリのボトルネックが深刻化する課題があった。従来のベクトル量子化手法ではデータ圧縮が可能だが、量子化定数の保存に伴うメモリオーバーヘッドが1〜2ビット発生し、圧縮効果が部分的に相殺されるという問題があった。

TurboQuantは2段階のアプローチでこの課題を解決する。第1段階の「PolarQuant」では、データベクトルをランダム回転させて幾何学的構造を単純化し、効率的な量子化を可能にする。第2段階では「Quantized Johnson-Lindenstrauss（QJL）」アルゴリズムを用いて残差誤差を処理し、アテンション計算における内積推定のバイアスを除去する。この組み合わせにより、量子化定数のオーバーヘッドをゼロに抑えながら高精度な圧縮を実現する。

ベンチマーク評価ではGemmaおよびMistralモデルを用いてLongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Evalの各テストを実施した。3ビット量子化においてNeedle In A Haystackタスクで完全な精度を維持しつつ、KVキャッシュメモリを最低6分の1に削減することを確認した。また、NVIDIA H100 GPU上での実験では、4ビットのTurboQuantが32ビット非量子化キーと比較してアテンションロジット計算で最大8倍の処理速度向上を達成した。

Googleは同技術がGeminiなどの大規模モデルにおけるKVキャッシュボトルネックの解消に有効と説明しており、ベクトル検索エンジンの高速化にも応用できるとしている。公式のオープンソースコード公開は2026年第2四半期を予定している。本研究はGoogleリサーチの研究科学者Amir Zandieh氏とVP・Google FellowのVahab Mirrokni氏が共同で執筆した。

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

BIZNEWS365

Google、LLMメモリを6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表——精度ゼロ劣化・訓練不要でKVキャッシュを3ビットに圧縮

関連記事

シェラトン・グランデ・トーキョーベイ・ホテル、ホテルロボット「BUTLERBOT W3」を導入

Google Play、GDC 2026で6つの新機能を発表——有料ゲーム試遊・1回購入でモバイル＆PC対応など

Adobe Fireflyがモバイル対応を強化　AIモデルの拡充でマルチメディア制作に変化

画像DXの最前線を切り開く「TDSE Visions」が公開！

Google、「Gemini」に日本語対応の画像生成AI「Imagen 3」追加

地場建築業界向けDXサービス『D-mot』、メタバース住宅展示場「Metavuild」を採用

「GIFTech」、エンジニアの「テクノロジーとモノ創りを楽しむ才能」を伸ばすプロジェクトが春に開催

「AIアナウンサー」誕生　琉球朝日放送が全国初の放送開始

Googleが「パーソナルインテリジェンス」を無料ユーザーへ開放 GeminiがGmailや写真と連携し個人最適化回答を実現

トヨクモクラウドコネクト、給付金支給業務のBPaaSサービスを開始

AIアシスタント「Gemini」iPhone専用アプリ登場！GeminiがiPhoneで利用可能に

社会課題をイノベーションの力で解決する学校』第７期募集開始！大阪校開校に加え、教育機関初となるデジタル障害者手帳「ミライロID」へのクーポン掲載を開始

最新ニュース記事

LINEヤフー、赤坂トラストタワーに新オフィス開設　週3出社移行でハイブリッドワークを強化

楽天「Rチャンネル」、AIで自治体の動画制作を効率化——地域創生支援サービスを提供開始、ふるさと納税PRにも対応

松尾研究所、プログラミング未経験者向けデータサイエンス講座「GCI 2026 Summer」を4月開講——全15回・オンラインで実践力を習得

ECCとEfekta、新オンライン英語学習「ECC Online Hyper Lessons」発表　没入型体験で実践シーンを再現

代アニ・VOISING・ウタイテ・ASOBI GOD、4社が経営統合——エンタメ全領域を統合した「代々木アニメーショングループ」として世界へ

リコー、日本語推論対応のマルチモーダルLLMを開発——「Gemini 2.5 Pro」同等の性能、GENIAC第3期で実現

Google、LLMメモリを6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表——精度ゼロ劣化・訓練不要でKVキャッシュを3ビットに圧縮

住友商事ら8社、福岡・箱崎に日本最大級スマートシティを開発——2028年度まちびらき、IOWN構想で未来型都市を実現

AI習熟度が成否を左右——Anthropicが「学習曲線」レポートを公開、上級ユーザーの成功率が最大5ポイント高い

Google、「検索 Live」を日本で提供開始――200以上の国・地域でAIモードのマルチモーダル検索が解禁

365AIニュースセンター最新記事

不登校からの復学へ！お子様の心を動かす7つのきっかけ

入学できないことも？「フリースクール入学拒否問題」の現実とその対処法

フリースクール中学校・通信制高校生の卒業後の進路：進学以外の就職という選択肢

中学生の不登校、30万人突破 – 教育現場の危機と新たな希望

【専門家が伝える】不登校のお子様を持つ親御様の「心の荷」を軽くする5つのヒント

不登校脱出への道？フリースクールの魅力と注意点-親子で考える新たな一歩-

Amazonが「プライムデー夏祭り」を六本木で開催！

甘いとうもろこしとフライドチキンの絶妙コンビ。夏限定！「もろこしチーズバーガー」新登場

Google、LLMメモリを6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表——精度ゼロ劣化・訓練不要でKVキャッシュを3ビットに圧縮

関連記事

最新ニュース記事

LINEヤフー、赤坂トラストタワーに新オフィス開設 週3出社移行でハイブリッドワークを強化

楽天「Rチャンネル」、AIで自治体の動画制作を効率化——地域創生支援サービスを提供開始、ふるさと納税PRにも対応

松尾研究所、プログラミング未経験者向けデータサイエンス講座「GCI 2026 Summer」を4月開講——全15回・オンラインで実践力を習得

ECCとEfekta、新オンライン英語学習「ECC Online Hyper Lessons」発表 没入型体験で実践シーンを再現

代アニ・VOISING・ウタイテ・ASOBI GOD、4社が経営統合——エンタメ全領域を統合した「代々木アニメーショングループ」として世界へ

リコー、日本語推論対応のマルチモーダルLLMを開発——「Gemini 2.5 Pro」同等の性能、GENIAC第3期で実現

Google、LLMメモリを6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表——精度ゼロ劣化・訓練不要でKVキャッシュを3ビットに圧縮

住友商事ら8社、福岡・箱崎に日本最大級スマートシティを開発——2028年度まちびらき、IOWN構想で未来型都市を実現

AI習熟度が成否を左右——Anthropicが「学習曲線」レポートを公開、上級ユーザーの成功率が最大5ポイント高い

Google、「検索 Live」を日本で提供開始――200以上の国・地域でAIモードのマルチモーダル検索が解禁

365AIニュースセンター最新記事

不登校からの復学へ！お子様の心を動かす7つのきっかけ

入学できないことも？「フリースクール入学拒否問題」の現実とその対処法

フリースクール中学校・通信制高校生の卒業後の進路：進学以外の就職という選択肢

中学生の不登校、30万人突破 – 教育現場の危機と新たな希望

【専門家が伝える】不登校のお子様を持つ親御様の「心の荷」を軽くする5つのヒント

不登校脱出への道？フリースクールの魅力と注意点-親子で考える新たな一歩-

Amazonが「プライムデー夏祭り」を六本木で開催！

甘いとうもろこしとフライドチキンの絶妙コンビ。夏限定！「もろこしチーズバーガー」新登場

ログイン

パスワード再設定

LINEヤフー、赤坂トラストタワーに新オフィス開設　週3出社移行でハイブリッドワークを強化

ECCとEfekta、新オンライン英語学習「ECC Online Hyper Lessons」発表　没入型体験で実践シーンを再現