中科曙光3万卡超集群落地郑州 国产AI算力实现规模化突破

随着大模型向万亿级参数、多模态和更复杂的世界模型快速演进,算力基础设施面临“供给紧、调度难、成本高、使用门槛高”等矛盾:一方面,训练与推理需求同时增长,带来更大的算力缺口;另一方面,算力资源区域、行业与机构间分布不均,单点建设容易形成“孤岛”,难以支撑跨地域、跨场景的弹性调用与稳定交付。基于此,国家超算互联网作为面向社会提供高性能计算与智能算力服务的重要载体,正推进节点能力升级与统一调度体系建设。2月5日,3套万卡超集群系统在国家超算互联网郑州核心节点同步上线试运行,形成三万卡级国产AI算力池并投入运营,覆盖超大规模模型训练、高通量推理、AI for Science等多类大规模计算场景。有关负责人表示,该集群将作为郑州节点的重要算力支撑,通过一体化调度提升资源利用效率与服务可达性。 从原因看,万卡级乃至更大规模集群不是简单的硬件堆叠,而是网络互联、存储与计算协同、供电散热、任务编排与容错等环节共同作用的系统工程。随着模型规模增大,节点间通信往往成为训练效率的关键瓶颈;同时,数据吞吐与存储访问能力也直接影响推理与科学计算的整体性能。为应对这些挑战,建设方在高速互联、存算传协同、高密供电与散热、统一资源调度各上推进工程化攻关,重点提升集群稳定性、可用性和长时间运行效率,支撑大规模训练中的故障恢复与持续迭代。 从影响看,三万卡级国产算力池落地:一是增强国家级算力枢纽节点的承载能力,为政产学研提供更高上限的计算供给;二是以多场景服务化交付降低大模型研发与应用的算力门槛,让更多中小机构与创新团队获得可用、可负担的算力资源;三是对产业链协同形成牵引,推动软硬件适配、工具链优化、运维体系与应用生态加快成熟。报道信息显示,相关平台已完成数百个主流模型的适配优化,并可通过超算互联网接入更多应用与生态伙伴,探索“算力+应用”的一体化供给路径。 从对策看,面对算力需求持续增长与应用多元化,业内普遍认为需三上同步推进:其一,完善开放兼容的软件栈与开发环境,降低迁移适配成本,提升跨平台可用性;其二,推进统一调度与精细化资源管理,通过作业编排、弹性伸缩与计费服务提升集群利用率,减少重复建设与闲置;其三,围绕关键行业场景打造可复用方案,形成“算力供给—模型训练—推理服务—行业应用”的闭环,推动算力从“可用”深入走向“好用、易用”。 从前景看,智能算力需求仍将保持高位增长,科学研究、工业制造、教育医疗等领域对高质量算力服务的需求将更为迫切。依托国家超算互联网的节点化布局与统一调度能力,三万卡级国产算力池有望在更大范围实现资源共享与按需调用,推动算力服务向普惠化、标准化、工程化发展。另外,面向十万卡乃至更大规模扩展,将更考验系统架构设计、能耗控制与稳定运维能力,也将推动关键技术持续迭代与产业协同深化。

三万卡级超算集群的部署不仅反映了工程化能力的提升,也为国家数字基础设施补强提供了重要支撑;在全球科技竞争加速的背景下,坚持自主创新与开放合作并行,有助于我国在新一轮技术变革中增强主动性。这个实践也为探索科技赋能经济社会发展的路径提供了参考。