问题——随着大模型训练与推理规模快速扩大,数据读写不再只是后台支撑,而是直接影响GPU利用率和业务响应的关键因素。业内普遍认为,高并发访问、海量参数加载、KV Cache频繁读写等场景下,存储系统的时延、吞吐和稳定性,正成为限制“算力有效发挥”的主要瓶颈之一。存储也因此从“拼容量”转向“拼效率”,成为大会讨论重点。 原因——一上,模型迭代加速、推理调用量持续上升,数据链路从离线批处理转向线、实时和多任务并行;另一上,数据集规模扩大、生命周期管理更复杂,企业既要在机房空间和能耗约束下扩容,又要控制总体拥有成本。同时,服务器向高密度部署演进,液冷等散热方式加快普及,对存储器件的兼容性与可靠性提出更高要求。多重因素叠加,推动企业级SSD从单点性能比拼,转向系统级协同优化。 影响——存储能力不足会拉长训练周期、抬高推理延迟,造成GPU“等数”,进而推高单位算力成本,影响业务上线节奏与服务体验。对数据中心运营者而言,如果难以在容量、能耗和稳定性之间取得平衡,扩容将面临机柜资源紧张、散热压力增加和运维复杂度上升等现实问题。产业链层面,面向AI负载的存储体系正在重塑产品路线与采购逻辑:既要速度,也要容量,还要长期稳定运行。 对策——在本届大会上,大普微提出从产品组合、介质路线、散热形态和软硬件协同等维度应对上述挑战。 其一,根据推理场景对更快响应需求,大普微提出以高IOPS、低时延为导向的产品组合,通过fast SSD与TLC企业级SSD协同覆盖不同负载,提升Token生成与响应效率,减少算力等待,从而在同等算力条件下提高系统利用率。 其二,面向数据底座持续扩张的趋势,公司推出PCIe 5.0 QLC企业级SSD产品,覆盖约30TB至245TB容量区间,强调以更高密度承载不断增长的数据资产,并通过介质选择与工程优化在成本与容量之间取得更合适的平衡,为训练数据、向量库、归档与冷热分层提供可扩展空间。 其三,围绕高功耗、高密度部署带来的散热与可靠性挑战,公司表示已对企业级SSD进行液冷环境适配优化,以匹配新一代液冷服务器架构,借助器件级适配提升系统稳定性与持续运行能力。 其四,在架构与功能层面,公司介绍了面向AI负载的协同技术路径:通过支持FDP等机制优化数据分布、降低写放大,提升长时间运行稳定性;针对KV Cache等热点数据,提出透明压缩思路,将压缩收益转化为性能与可用容量;同时推出面向高并发与高吞吐需求的硬件级纠删码/RAID方案,以兼顾数据保护与效率。整体策略强调从“单盘指标”走向“系统能力”,以软硬一体化提升数据供给的确定性。 前景——从2016年至今的产业演进显示,存储正在经历结构性变化:接口速率从PCIe 3.0/4.0迈向PCIe 5.0,介质从以TLC为主逐步向更高密度方案拓展,评价体系也从峰值性能转向可持续吞吐、尾延迟与总体成本。业内人士认为,随着大模型应用从试点走向规模化,QLC在企业级场景的渗透有望加快,但落地关键在于控制写放大、保障可靠性,并与数据分层策略相匹配。此外,液冷数据中心建设提速,将推动存储、服务器与网络的协同设计成为常态。大会期间,大普微凭借面向AI场景的产品与技术落地获得“年度企业级AI存储创新突破奖”,也反映出行业对“存储即算力基础设施”这个趋势的共识在增强。
AI竞逐进入深水区,基础设施竞争正在从“堆算力”转向“提效率”。存储作为连接数据与算力的关键环节,不仅要性能跟得上,还要在容量、能耗与可靠性上保持可控。谁能以系统工程思维打通数据供给链路,用更可控的成本支撑更大的数据规模,谁就更可能在新一轮产业变革中掌握主动权。