oisa 平台为大规模智算中心铺路

最近,摩尔线程和中国移动研究院这些合作伙伴联合发布了一个能放下128张卡的高密度超节点设计标准。这其实是在为以后的大规模智算中心铺路。现在全球的计算集群都在往“万卡”甚至“十万卡”规模发展,但之前那种单机八卡的服务器在面对特别大的模型时,因为通信成本太高,根本没法线性地提升算力了。大家现在都开始关注那种通信能力特别强的超节点架构。就在这个节骨眼上,他们依托OISA平台,正式把这个设计规范给发出来了。这个规范针对了现在智算中心经常碰到的连接不畅、电不够用和散热太难的问题,给出了一套完整的解决方案。把那些互连结构重新设计了一遍,算力密度就这么跨了一大步。在空间布局和逻辑结构上,OISA通过把密度和扩展性深度融合,彻底打破了之前的限制。他们还大胆用上了大尺寸的线缆方案,在32卡到64卡的基础上,硬是把一个标准机柜里的卡槽数增加到了128个,还能并柜扩展到256卡,这样单位面积的产出就高多了。通信协议这块儿也不错,基于OISA 2.0的原生内存支持实现了跨节点无障碍访问,再加上报文重构技术,让卡之间的带宽冲到了TB每秒的级别,延迟也缩短到了几百纳秒。这种高密度的物理空间加上高带宽的逻辑互连,不仅让国产芯片能互相兼容互通,还为大规模模型训练提供了一个跟单机差不多快的协同环境。 面对单颗GPU功耗涨到700W以上、机柜功率要到350kW甚至更高的情况,OISA的参考设计也进行了大改革。供电方面他们搞了高压直流系统和集中供电、盲插技术,减少中间转换环节就省了不少电。散热上以前只能选液冷技术现在直接变成标配了。针对2kW以上的散热需求优化之后,PUE值从1.4降到了1.05到1.15之间。通过智能诊断系统监测流量、压力、温度这些数据,导热效率提升了几千倍。这样既能保证系统在高负载下稳定运行,又为智算产业的绿色发展开了条新路。 这次发布标志着产业界的共识越来越统一了。这个规范整合了产业链上下游资源,给大家搭建了一个更包容的生态环境。通过芯片、设备、应用这些环节的深度联动,给行业提供了更多选择。接下来OISA平台还会继续把Chiplet、光互连、内存池这些前沿技术融合进来。中国移动和之江实验室这些伙伴也会邀请更多人一起搞定制化设计。大家在开放中突破、在合作中获益,一起画出高效、绿色又可持续的智算未来蓝图。