谷歌推turboquant 内存压缩技术

谷歌研究院马上要在3月26日的国际学习表征会议（ICLR 2026）上公布一份重磅论文，结果当天美国股市上那些卖存储芯片的股票全都大跌，连希捷都跌了8%多，超威半导体、西部数据也都超过7%，闪迪更是直接跌了11%。业内人士推测，这次波动是因为谷歌要推出一种叫TurboQuant的新内存压缩技术。他们说，这个技术可以把AI在运行时需要用的缓存内存压缩到原来的六分之一，而且在英伟达的H100 GPU上，性能还能提升最高8倍。大家都知道AI模型在干活的时候有个叫KV缓存（Key-Value Cache）的“工作内存”，模型处理信息或者生成答案的时候，这个缓存会很快涨起来，上下文窗口越长，内存就越吃紧。 TurboQuant其实就是一种特别狠的量化压缩算法。以前的量化方法得在精度和多存一点之间找平衡，谷歌这次用了PolarQuant和QJL两项新东西，居然能在“零损失”的情况下把KV缓存的精度压到3-bit。Cloudflare的老大看了说这是谷歌的“DeepSeek时刻”，觉得这技术会像DeepSeek那样极大地降低运行成本。不过摩根士丹利的分析师觉得大家可能搞错了。这东西只针对推理阶段的键值缓存，不影响存模型权重的高带宽内存（HBM），也和训练没啥关系。所谓的“6倍压缩”，其实是单GPU的效率更高了，能让在同样硬件下的上下文窗口变长4倍到8倍，或者能大大增加能同时处理的任务量而不爆内存。目前谷歌还没说具体啥时候把这技术用在自家的Gemini模型上，不过他们打算下个月就在ICLR 2026上正式发这篇论文。