问题——大模型训练正把数据中心网络推向“性能与能耗”的临界点。随着参数规模扩大、并行训练加深,算力集群对互连带宽、时延和稳定性的要求快速提高。以电分组交换为主的传统架构高负载下容易出现拥塞和抖动,能耗也随之上升:数据在交换节点需要反复经历“光—电—光”转换、解析缓存与再转发,链路越密、跳数越多,时延和功耗的累积越明显,进而影响训练吞吐与集群利用率。对运营方来说,电费和散热成本同步上涨,正在成为智算中心扩容的关键约束。 原因——“O-E-O链路”难以摆脱能耗与时延的结构性限制。电分组交换的优势在于成熟和生态完善,但其流程决定了数据必须在交换机侧完成电子域处理。以常见高速光模块为例,单模块功耗通常在数瓦到十余瓦量级,再叠加交换芯片、SerDes等器件耗电,在大规模部署下单位比特能耗被显著放大,并且在更高带宽演进中仍会遇到工程瓶颈。,大模型训练具有“强同步、强通信”特征,跨节点梯度同步对尾时延非常敏感;一旦网络抖动加剧,就会直接拉低整体训练效率,出现“算力在等网络”的情况。 影响——OCS的突破口在于“让光在光域中直达”。此次发布的“光跃超节点128卡商用版”以曦智科技硅光OCS光交换芯片为关键组件,通过光路交换在物理层动态调整光信号路径,减少不必要的电子处理环节,实现端到端光通路连接。联合发布方表示,该系统在实际训练中可长期稳定运行,模型训练性能得到提升,传输时延相较传统电交换降低90%以上。需要指出,从去年7月对外发布到本次商用落地,半年多时间完成了从概念验证到批量部署方案的跨越,反映出国内新型智算网络设备在工程化与系统集成上的推进速度。 对策——以“端到端方案”打通从芯片到整机、从网络到模型的协同链路。业内认为,OCS的价值不仅在能效与时延,也体现在可调度性与兼容性:一上,光路交换不受传统电子交换端口速率瓶颈影响,更容易支撑更高带宽互连;另一方面,光域通路一定程度上降低协议与生态锁定风险,为异构算力、不同互连协议之间的适配预留空间。此次方案已适配阶跃星辰、DeepSeek等多个国产大模型,说明其不仅停留在实验室指标,而是面向真实训练作业完成了软件栈与调度策略的联动验证。对智算中心建设方而言,下一步重点是把OCS与现有网络分层架构、作业调度系统、容错与运维体系更打通,形成可复制、可运维、可规模化的部署方式。 前景——硅光OCS有望成为智算网络的重要增量,但规模化与标准化仍需持续攻关。随着“东数西算”、行业大模型落地和算力基础设施升级,数据中心竞争正从单纯“堆算力”转向“算网一体”的综合效率比拼。OCS要走向更大规模应用,还需要在器件良率与一致性、光电混合集成工艺、网络控制平面与调度算法、故障快速绕行与业务无感切换各上持续提升,并推动接口、管理与测试体系标准化,降低集成门槛。同时,国内产业链协同空间依然广阔:从硅光芯片、光器件与封装,到交换系统、服务器与加速卡,再到通信设备与数据中心工程,只有形成“芯片—系统—应用”的闭环迭代,才能把技术优势稳定转化为产业竞争力。
算力竞争进入下半场,拼的不只是芯片峰值,更是系统把算力高效“用起来”的能力;以硅光OCS为代表的全光互联探索,指向更低功耗、更低时延、更高可用的智算网络底座。把关键技术从实验室推进到可复制的工程化部署,并在标准、生态与运维层面形成合力,才能让网络不再拖慢算力,为数字经济的高质量发展夯实基础。