SK海力士推出混合存储架构破解AI推理瓶颈 性能提升超两倍引发产业格局重塑

当前,大模型应用加速落地,推理侧的成本与效率成为算力产业新的焦点。

与训练相比,推理更强调稳定吞吐、时延可控与单位成本效率,但在长上下文、并发请求等场景下,KV缓存快速膨胀,成为制约系统性能与资源利用的关键因素。

业内把这一矛盾概括为大模型推理的“记忆瓶颈”:算力并未被充分消耗,反而受限于存储容量、带宽与访问时延。

问题在于,KV缓存需要在推理过程中持续保存并读取上下文信息。

随着模型规模扩大、上下文长度增加以及多轮对话需求上升,KV缓存容量需求呈快速增长态势,显存与高带宽内存的压力随之攀升。

传统方案主要依赖堆叠HBM以提升带宽,但在功耗、成本与可扩展性方面面临约束:单纯增加高速内存不仅价格高、供给紧张,也容易在系统功耗与散热上触及上限,且难以从根本上解决“容量不够用、带宽被挤占”的结构性矛盾。

针对上述痛点,相关论文提出以混合存储分工来应对:以HBM承担纳秒级响应的高频数据访问,以更大容量的HBF承接KV缓存等“容量型负载”,形成“快存储负责速度、慢存储负责容量”的协同机制。

据介绍,HBF以NAND闪存堆叠实现更高的单位容量,单堆栈容量可显著高于HBM,从而为超长上下文与大并发提供更充足的缓存承载空间。

论文中通过将多组HBM3E与HBF堆栈与GPU平台配合验证,给出了推理性能提升与批处理能力增长的数据结果,并强调在千万级token的长上下文处理下,系统吞吐改善更为明显。

原因层面看,混合架构的关键并非简单“叠加容量”,而在于如何让GPU计算单元不被慢速介质拖累。

为此,方案引入“延迟隐藏缓冲”等设计,试图在闪存写入与更新较慢的特性前建立中间层调度与缓存机制,通过更合理的读写路径与队列管理减少等待时间,提升GPU整体利用率。

换言之,系统把更多时间留给计算,把不可避免的存储延迟通过结构与调度“消化”在后台,从而在不盲目堆砌HBM的情况下提升推理效率。

影响方面,混合存储路线一旦成熟,可能带来三方面变化:其一,推理侧资源配置将更强调“算力—存力”匹配,AI服务器可能从“以HBM带宽为中心”转向“以缓存承载与吞吐效率为中心”的设计范式;其二,产业链竞争焦点或从单一HBM供给能力,扩展到存储介质组合、封装互连与系统级调度能力,推动厂商从器件优势走向架构协同;其三,标准与生态的重要性上升,软硬件需要围绕新的内存层级进行适配,包括模型推理框架的缓存管理策略、数据布局与并发调度等。

对策层面,混合架构要走向规模化应用仍需直面关键约束。

业内普遍关注的一点是NAND写入延迟与动态更新场景的适配问题:KV缓存并非静态数据,部分场景下存在频繁更新与回写,若写入路径不能有效加速或隐藏延迟,将影响端到端时延与服务质量。

因此,后续改进重点可能集中在控制器与基极芯片优化、缓存一致性与写放大控制、以及更贴近推理负载特征的分层管理策略。

同时,围绕互连、封装与软件栈的协同标准也将成为竞争高地,谁能率先在接口、协议与兼容性上形成共识,谁就更可能在下一代AI服务器内存形态中占据主动。

前景判断上,推理需求的增长正在推动行业从“唯带宽论”走向“效率优先、结构创新优先”。

在HBM成本、功耗与供给约束长期存在的背景下,通过层级化存储释放GPU算力、以更低的单位成本支撑更长上下文与更高并发,具备现实吸引力。

与此同时,混合存储对先进封装与混合键合等工艺提出更高要求,相关能力的积累将直接影响产品落地速度与良率成本。

随着产业加速投入与标准化推进,混合存储有望从技术验证走向工程化,成为推理基础设施的重要选项之一。

这场由存储技术突破引发的产业变革,不仅展示了技术创新如何破解行业瓶颈,更预示着全球半导体产业格局可能迎来新的洗牌。

在这个技术快速迭代的时代,谁能掌握核心技术,谁就能在产业变革中占据主动。

对于中国半导体产业而言,这既是机遇也是挑战,需要产业链各方共同努力,在关键技术领域持续突破,才能真正实现从"跟跑"到"领跑"的跨越。