内存价格最近真是让人揪心,谷歌发布的一项新技术TurboQuant,居然让美光、SK海力士这些大厂股价都跌惨了。3月25号那天,美光直接跌了超过4%,闪迪一度暴跌6.5%,SK海力士在韩国股市开盘没多久也跌了3%。这究竟是怎么回事?TurboQuant其实不是什么新模型或产品,它是谷歌搞出来的一种推理优化技术,说白了就是给AI的内存压缩算法。 谷歌做了个测试,发现TurboQuant能把AI推理时用到的KV Cache内存需求降低至少6倍。KV Cache说白了就是AI用来记上下文的地方,你和它聊得越多,它占的内存就越大。TurboQuant的目标就是把这些“记忆”压缩掉,而且还得保证无损,不让AI变笨。它主要干了两件事:先用PolarQuant的方法把32位的数据无损压缩到3位级别;再用QJL算法把压缩带来的误差修正掉。如果这项技术真能在更多模型上实现无损压缩,那肯定是个大杀器。 毕竟内存对于AI来说就像房间里的大象,是个绕不过去的瓶颈。有了TurboQuant,首先能省下不少推理成本。现在AI推理最贵的就是算力和内存,如果这一块能省到六分之一,那很多以前很贵的服务可能就会变得人人都能用得起。 其次是能让更多设备运行AI。现在很多AI只能跑在云端,很大程度上是因为本地设备带不动。如果内存需求下来了,手机、车机甚至一些边缘设备都能跑更强的模型了。 再往长远看,这甚至会改变我们用AI的方式。现在很多模型其实不是不会回答问题,而是记不住上下文太长就开始出错。特别是像OpenClaw这类Agent产品,特别依赖长对话能力。 要是TurboQuant真能让模型在有限资源下记住更多东西,长对话、多步骤任务执行这些场景的体验肯定会好很多。当然也得保持冷静,目前它还只是在Gemma和Mistral这几个开源模型上测试过效果好不好还不知道。而且它改进的只是推理过程的内存占用,对训练成本没帮助。 谷歌这次在压缩算法上真是下了血本啊!如果真能把内存需求降下来,以后谁还用得起什么高价存储啊?反正我是觉得这次Google真是炸了锅!