SK海力士推出混合存储架构破解AI推理瓶颈性能提升超两倍引发产业格局重塑

当前，大模型应用加速落地，推理侧的成本与效率成为算力产业新的焦点。

与训练相比，推理更强调稳定吞吐、时延可控与单位成本效率，但在长上下文、并发请求等场景下，KV缓存快速膨胀，成为制约系统性能与资源利用的关键因素。

业内把这一矛盾概括为大模型推理的“记忆瓶颈”：算力并未被充分消耗，反而受限于存储容量、带宽与访问时延。

问题在于，KV缓存需要在推理过程中持续保存并读取上下文信息。

随着模型规模扩大、上下文长度增加以及多轮对话需求上升，KV缓存容量需求呈快速增长态势，显存与高带宽内存的压力随之攀升。

传统方案主要依赖堆叠HBM以提升带宽，但在功耗、成本与可扩展性方面面临约束：单纯增加高速内存不仅价格高、供给紧张，也容易在系统功耗与散热上触及上限，且难以从根本上解决“容量不够用、带宽被挤占”的结构性矛盾。

针对上述痛点，相关论文提出以混合存储分工来应对：以HBM承担纳秒级响应的高频数据访问，以更大容量的HBF承接KV缓存等“容量型负载”，形成“快存储负责速度、慢存储负责容量”的协同机制。

据介绍，HBF以NAND闪存堆叠实现更高的单位容量，单堆栈容量可显著高于HBM，从而为超长上下文与大并发提供更充足的缓存承载空间。

论文中通过将多组HBM3E与HBF堆栈与GPU平台配合验证，给出了推理性能提升与批处理能力增长的数据结果，并强调在千万级token的长上下文处理下，系统吞吐改善更为明显。

原因层面看，混合架构的关键并非简单“叠加容量”，而在于如何让GPU计算单元不被慢速介质拖累。

为此，方案引入“延迟隐藏缓冲”等设计，试图在闪存写入与更新较慢的特性前建立中间层调度与缓存机制，通过更合理的读写路径与队列管理减少等待时间，提升GPU整体利用率。

换言之，系统把更多时间留给计算，把不可避免的存储延迟通过结构与调度“消化”在后台，从而在不盲目堆砌HBM的情况下提升推理效率。

影响方面，混合存储路线一旦成熟，可能带来三方面变化：其一，推理侧资源配置将更强调“算力—存力”匹配，AI服务器可能从“以HBM带宽为中心”转向“以缓存承载与吞吐效率为中心”的设计范式；其二，产业链竞争焦点或从单一HBM供给能力，扩展到存储介质组合、封装互连与系统级调度能力，推动厂商从器件优势走向架构协同；其三，标准与生态的重要性上升，软硬件需要围绕新的内存层级进行适配，包括模型推理框架的缓存管理策略、数据布局与并发调度等。

对策层面，混合架构要走向规模化应用仍需直面关键约束。

业内普遍关注的一点是NAND写入延迟与动态更新场景的适配问题：KV缓存并非静态数据，部分场景下存在频繁更新与回写，若写入路径不能有效加速或隐藏延迟，将影响端到端时延与服务质量。

因此，后续改进重点可能集中在控制器与基极芯片优化、缓存一致性与写放大控制、以及更贴近推理负载特征的分层管理策略。

同时，围绕互连、封装与软件栈的协同标准也将成为竞争高地，谁能率先在接口、协议与兼容性上形成共识，谁就更可能在下一代AI服务器内存形态中占据主动。

前景判断上，推理需求的增长正在推动行业从“唯带宽论”走向“效率优先、结构创新优先”。

在HBM成本、功耗与供给约束长期存在的背景下，通过层级化存储释放GPU算力、以更低的单位成本支撑更长上下文与更高并发，具备现实吸引力。

与此同时，混合存储对先进封装与混合键合等工艺提出更高要求，相关能力的积累将直接影响产品落地速度与良率成本。

随着产业加速投入与标准化推进，混合存储有望从技术验证走向工程化，成为推理基础设施的重要选项之一。

这场由存储技术突破引发的产业变革，不仅展示了技术创新如何破解行业瓶颈，更预示着全球半导体产业格局可能迎来新的洗牌。

在这个技术快速迭代的时代，谁能掌握核心技术，谁就能在产业变革中占据主动。

对于中国半导体产业而言，这既是机遇也是挑战，需要产业链各方共同努力，在关键技术领域持续突破，才能真正实现从"跟跑"到"领跑"的跨越。

SK海力士推出混合存储架构破解AI推理瓶颈 性能提升超两倍引发产业格局重塑

SK海力士推出混合存储架构破解AI推理瓶颈性能提升超两倍引发产业格局重塑