随着大模型在企业里快速铺开,对 AI 推理系统提出了新的基础设施考验。上下文越来越长,用户一起发的请求也越来越多,让原来的显存架构成了卡脖子的瓶颈。大家都在琢磨怎么改系统结构来释放算力,又得控制好成本,这是 AI 企业能不能赚钱的关键。 最近,开放数据中心委员会(ODCC)联合 NVIDIA、美团、三星和 Solidigm 这些业界大佬成立的 AI 存储实验室,搞了个专门评测大模型推理核心痛点——KV Cache 的动作。测试结果显示,焱融科技自己做的 YRCache 系统,既把推理速度提上去了,又把钱省下来了。 国内专业做 AI 存储的焱融,给自家 YRCache 系统专门设计成用来大规模跑推理的。它通过把 GPU 显存、主机内存、本地 NVMe SSD 和 YRCloudFile 分布式存储捏合起来的多层缓存架构,直接把 KV 缓存空间扩大了不少,彻底解决了显存不够用的问题。这次是在 NVIDIA 的平台上测的,用的是 DeepSeek-R1 这类主流大模型,还看了中端 GDDR GPU 和高端 HBMGPU 两种卡。而且不光看怎么连的网(200Gbps、400Gbps、800Gbps),还比了用原生 vLLM 框架和用了 YRCache 之后的差别。 重点来了!数据说明白了:TTFT 和 TPOT 这俩指标直接降了 97%,一个 Token 的处理能力也能高 22 倍。这就好比把大家从“半天憋不出一个字”的卡顿中解救出来,长文章生成也变得特流畅。系统的处理能力更强了,能同时伺候更多用户的请求,自然算出来的每一个 Token 也便宜了不少。 还有个很实在的情况是:当输入的 Token 从 100 个暴涨到 10 万个的时候,YRCache 也一直稳稳当当表现好。而且上下文越长,它提速的效果越明显。这下可好了,那些干长文档分析或者需要多轮对话的企业,再也不用担心性能突然掉链子了。 更惊喜的是:在 YRCache 的加持下,原本性能不太行的中端 GDDR GPU 服务器,推理能力居然赶上了高端 HBMGPU 的大部队。 原来要是没用优化方案,中端 GPU 的处理量才是高端的 30%。可一旦用了 YRCache 之后,差距就被拉小了。数据说话:中端能跑出高端的 79%。 这种巨大的改变直接导致了回报翻倍。 投入产出比有多夸张?如果算上原生状态下的中低端卡劣势,换了 YRCache 后去算 ROI 会发现:在 400Gbps 网络里提升了 11 倍,在 800Gbps 网络里更是直接暴涨了 14 倍。 这就是说你把同样一笔钱花在“中端 GDDR GPU 服务器 + YRCache”方案上,换来的效果比直接上原生高端 HBMGPU 要好几倍。这种变化彻底改变了企业做 AI 的花钱逻辑——既然花钱重心能从买贵卡转移到买好的存储技术上来,那做 AI 应用就不再是烧钱的无底洞了。 中小企业门槛变低能搞起高性能推理服务,大公司的总拥有成本也会大幅下降。 这次 ODCC 首发评测不光是在给焱融 YRCache 点赞,也是在告诉大家:“靠存来促算、靠改架构来省钱”这条 AI 新路子是走得通的。作为 ODCC 实验室的重要实践案例,它给行业提供了那种能算清楚、能复现的技术标准和指导手册。 以后 ODCC 的 KV Cache 系列测试还会继续做下去,把“硬件、系统、应用”这一整条链路打通。焱融那边也说了,他们的 YRCache 还能玩 PD 分离这类下一代的推理架构。今后他们会一直拿着“性能翻好几倍+成本砍一半”的利器,帮助企业在 AI 大潮里用更少的钱和更高的效率去抢占先机。