谷歌推turboquant 内存压缩技术

谷歌研究院马上要在3月26日的国际学习表征会议(ICLR 2026)上公布一份重磅论文,结果当天美国股市上那些卖存储芯片的股票全都大跌,连希捷都跌了8%多,超威半导体、西部数据也都超过7%,闪迪更是直接跌了11%。 业内人士推测,这次波动是因为谷歌要推出一种叫TurboQuant的新内存压缩技术。他们说,这个技术可以把AI在运行时需要用的缓存内存压缩到原来的六分之一,而且在英伟达的H100 GPU上,性能还能提升最高8倍。大家都知道AI模型在干活的时候有个叫KV缓存(Key-Value Cache)的“工作内存”,模型处理信息或者生成答案的时候,这个缓存会很快涨起来,上下文窗口越长,内存就越吃紧。 TurboQuant其实就是一种特别狠的量化压缩算法。以前的量化方法得在精度和多存一点之间找平衡,谷歌这次用了PolarQuant和QJL两项新东西,居然能在“零损失”的情况下把KV缓存的精度压到3-bit。Cloudflare的老大看了说这是谷歌的“DeepSeek时刻”,觉得这技术会像DeepSeek那样极大地降低运行成本。 不过摩根士丹利的分析师觉得大家可能搞错了。这东西只针对推理阶段的键值缓存,不影响存模型权重的高带宽内存(HBM),也和训练没啥关系。所谓的“6倍压缩”,其实是单GPU的效率更高了,能让在同样硬件下的上下文窗口变长4倍到8倍,或者能大大增加能同时处理的任务量而不爆内存。 目前谷歌还没说具体啥时候把这技术用在自家的Gemini模型上,不过他们打算下个月就在ICLR 2026上正式发这篇论文。