打破垄断、自主可控——中科曙光发布国内首款全栈自研InfiniBand原生无损高速网络,填补国产算力互联核心技术空白

问题——大模型训练走向万卡化,网络成为系统“决定性变量” 当前,人工智能大模型参数规模持续攀升,训练与推理对集群协同提出更高要求。业内测算显示,算力需求呈加速增长态势,集群规模从“千卡”快速迈向“万卡”,并向“十万卡”演进。,单纯堆叠计算资源已难以换来线性性能提升,跨节点通信效率成为制约整体效率的关键因素。特别是数据并行、模型并行、流水并行等训练模式下,梯度与参数同步对网络时延、拥塞控制与丢包恢复的要求更为苛刻。实践表明,在大规模系统中,计算决定性能上限,而网络能力不足往往会把整体效率拉向下限,甚至导致训练“跑不满”、成本高企。 原因——原生RDMA对高端计算更匹配,传统路径各有掣肘 为满足低时延、高带宽、高可靠的互联诉求,RDMA已成为高端计算系统的事实标准。国内常见实现路径主要包括InfiniBand(IB)、RoCE与iWARP等。iWARP更多面向特定应用场景,工程部署规模与生态侧重与超大规模训练并不完全一致;RoCE则基于以太网体系引入RDMA能力,优势在于与IP生态兼容,但在工程实现上往往需要更复杂的无损以太网配置与运维体系,并可能面临协议冗余、拥塞敏感、规模扩展能力不足等问题。尤其在超大规模集群中,网络抖动、拥塞传播与运维复杂度更容易放大其短板。 相比之下,IB作为原生RDMA网络,协议栈面向高速互联进行优化,强调低时延与高有效载荷,长期被视为超算与高端智算的“专用高速公路”。但长期以来,IB关键产品与生态在国际市场高度集中,产业链安全与供给稳定性面临外部不确定因素。网络作为算力基础设施“底座”,一旦受制于人,将直接影响大规模算力工程的建设节奏、成本结构与持续演进能力。 影响——从“能连起来”转向“连得快、连得稳、连得可控” 在万卡到十万卡集群条件下,网络能力不仅关系单次训练耗时与能耗,更影响资源利用率与算力投资回报。低时延意味着同步更快、空转更少;高吞吐意味着通信瓶颈更难出现;高可靠与无损特性则关系到拥塞情况下的性能下滑幅度及故障恢复能力。业内对交换时延、端口带宽与端到端拥塞控制的关注度不断上升,400G端口带宽成为主流配置并向800G演进。此外,网络的可观测、可运维、可扩展也日益成为智算中心规模化复制的关键指标。对算力中心而言,高性能网络的价值已从“配套组件”升级为决定系统效率、可用性与长期演进的核心能力之一。 对策——国产化需走“全栈自研+面向大规模场景”的工程路线 在上述背景下,中科曙光于3月12日发布全栈自研400G无损高速网络scaleFabric。该产品定位为国内首款国产InfiniBand原生无损RDMA超高速网络,面向大模型训练与超算等高端计算场景,强调为万卡集群设计并兼顾更大规模扩展需求。 从工程路径看,面向超大规模集群的高速互联,关键不止于单点带宽提升,更在于系统性能力:其一,低时延交换与端到端传输效率,决定通信开销占比;其二,无损传输与拥塞控制能力,决定系统在压力场景下的稳定性与一致性;其三,大规模组网与运维体系,决定能否在多机房、多域与长周期运行中保持可控、可管、可定位;其四,软硬协同与生态适配,决定能否与主流训练框架、调度系统以及计算平台形成整体优化。业内人士指出,在小规模集群中,网络差异可能并不显著;但当规模向十万卡迈进时,网络往往成为首先需要攻克的“硬骨头”,必须以原生能力和工程化体系应对规模效应带来的复杂性。 前景——高速互联国产突破有望带动智算基础设施升级与产业链协同 从产业发展趋势看,未来一段时期内,大模型训练将持续走向更大参数、更高并行、更高通信密度,网络技术也将围绕400G普及、800G演进以及更高阶互联体系展开竞争。国产高速互联推进,既有望提升我国智算中心在关键基础设施上的自主可控水平,也将推动服务器、交换设备、光互连、软件栈与运维体系等环节的协同升级。 同时也应看到,高速网络的生态建设与规模化落地需要时间:一上,大规模客户场景对稳定性、可维护性与兼容性的验证周期较长;另一方面,从单一产品到系统解决方案,还需与计算平台、存储体系、集群调度及应用框架进行深度联动。随着更多工程实践积累、更多应用场景验证,以及产业链上下游协作加强,国产高速互联有望在智算与超算建设中形成更强支撑能力。

从“跟跑”到“并跑”的跨越,背后是国产信息技术产业长期投入与积累的结果;在全球算力竞赛持续升温的背景下,突破核心网络技术不仅关乎产业安全,也关系到智能时代关键基础设施的主动权。随着更多“scaleFabric”级创新成果落地,中国正在高端计算领域加快构建自己的技术体系与产业生态。