我国首套全栈自研400G无损网络系统发布 关键技术指标达到国际领先水平

一、背景:算力竞争加剧,高速网络成战略短板 当前,大规模模型训练与高通量推理计算需求持续攀升,万卡乃至十万卡级算力集群正逐步成为智能计算基础设施的主流形态;鉴于此,算力集群内部的通信网络性能直接决定整体计算效率的上限。远程直接内存访问(RDMA)网络凭借零丢包、高带宽、低延迟等核心特性,已成为大规模智算中心的基础性技术需求。 然而,长期以来,从高速SerDes IP、核心交换芯片到网卡、交换机等关键设备,有关产业链几乎被少数海外厂商所垄断。国内算力基础设施高速互联网络层面存在明显的技术依赖,这个短板在外部技术管制持续收紧的形势下愈发凸显,成为制约国内智算产业自主发展的重要瓶颈。 二、突破:全栈自研,构建完整技术体系 针对上述痛点,中科曙光历经多年技术攻关,于近日正式发布国内首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构,从底层112G SerDes IP、硬件设备到上层管理软件,实现100%自主研发,构建起从硬件到软件的完整技术闭环,填补了国内数据中心高速网络领域的空白。 此次发布的scaleFabric400系列产品,技术规格全面对标国际顶尖同类产品,部分核心指标实现赶超。在性能层面,scaleFabric400网卡基于PCIe5.0接口,端口带宽达400Gbps,端到端通信时延低至0.9微秒;交换机单端口带宽达800Gbps,整机交换容量可达双向64Tbps,交换时延约260纳秒,支持800G×40或400G×80端口灵活扩展。 在稳定性与扩展能力上,产品采用基于信用的无损流控机制,从根源规避拥塞丢包风险,链路故障恢复时间小于1毫秒。与国际顶尖同类产品相比,scaleFabric400交换机端口密度提升25%,网卡最大队列对数支持提升100%,单子网互连规模是传统同类技术的2.33倍,可支持最大11.4万卡集群部署,同时网络总成本可降低约30%。 三、验证:实战部署,支撑万卡集群稳定运行 技术突破的价值最终须经实际应用检验。据中科曙光官方公告,scaleFabric目前已正式部署于国家超算互联网郑州核心节点,支撑三套万卡级scaleX智算集群上线运行,总规模达3万卡,持续稳定运行验证时间已超过10个月。这一成果表明,该产品已具备在超大规模生产环境中可靠运行的工程成熟度,不再停留于实验室阶段。 四、意义:补链强链,推动高端网络设备国产化进程 scaleFabric的发布,标志着国内企业在高端原生RDMA网络技术领域实现了从零到一的历史性跨越。这不仅是单一产品层面的技术突破,更意味着国内在高速互联网络这一算力基础设施的关键环节上,初步建立起自主可控的完整产业能力。 从产业链角度审视,此次突破覆盖了SerDes IP、交换芯片、网卡、交换机、驱动及管理软件等全部核心环节,有效打通了此前长期依赖进口的技术链条。在当前国际技术竞争格局下,这一进展对于保障国内智算基础设施的供应链安全具有重要的战略意义。

在迈向万卡级智算时代的进程中,高速网络已从配套设施升级为关键生产要素;真正的技术突破不仅需要达到性能标准,更要经得起大规模部署和长期运行的考验。只有将创新转化为稳定可靠的工程能力,才能为数字经济发展奠定坚实的算力基础。