一、问题:算力规模扩大,网络成为新瓶颈 随着大模型训练与推理需求增长,算力集群规模从单机扩展到万卡级别,数据交换量大幅增加;模型并行、参数同步等环节需要大量节点高频互联。但算力增加并不直接提升效率,集群间互联的时延、带宽和稳定性反而成为制约训练效率、推理体验和能耗成本的关键因素。部分数据中心出现"算力充足但网络滞后"的情况,导致资源利用率下降。 二、原因:传统电交换架构难以满足超大规模计算需求 当前数据中心普遍采用电交换芯片为核心的网络架构,光信号需经过多次光电转换。在超大规模集群中,这种架构存在明显局限:一是时延累积效应显著,尤其在频繁同步的训练任务中;二是功耗和散热压力增大,影响数据中心能效;三是端口密度和布线复杂度随规模急剧上升,增加扩容成本和运维难度。这些因素使网络从辅助设施变为影响算力质量的关键因素。 三、影响:政策与需求推动技术发展 4月2日,工信部发布《普惠算力赋能中小企业发展专项行动》,明确提出推广全光交换等技术以缩短网络时延。这表明算力发展正从规模扩张转向质量提升。同时,云服务商、科研机构对高效互联的需求持续增长,海外光通信企业也在加速布局新型交换方案。政策引导、市场需求和产业供给正在形成合力,为全光交换的广泛应用创造条件。 四、对策:以全光交换推动网络升级 全光交换(OCS)通过减少光电转换环节——可有效降低时延和能耗——提升大规模互联能力。在AI训练等高频互联场景下,全光交换能与现有网络形成互补:既提供低时延连接,又能与电交换等协同构建更高效的网络体系。下一步需重点推进:建立统一标准与测试体系;加强核心器件研发和系统集成;根据不同业务需求制定差异化方案,避免资源浪费。 五、前景:从技术突破到体系重构 全光交换的规模化应用不仅是设备更新,更是数据中心网络体系的重构,涉及光器件、系统设备等多个环节。国内企业在系统集成等取得进展,有望在更多场景中验证竞争力。但规模部署也面临稳定性、运维难度等挑战,特别是在关键业务场景下。随着算力基础设施向高效低碳方向发展,全光交换将成为提升网络质量的重要选择,其推广速度取决于技术成熟度和实际应用效果。
算力竞争已进入新阶段,不仅要"算得快",更要"连得好、用得省";全光交换等技术的部署表明,算力建设正从单点性能转向系统效率优化。抓住网络升级机遇,既是提升算力质量的现实需求,也是推动数据中心绿色转型、夯实数字经济基础的关键举措。