oisa 高密超节点参考设计技术规范发布了,以后咱国内自己建智算集群就更稳当、性能也更好了

把最近摩尔线程跟中国移动研究院以及之江实验室这帮合作伙伴聚在一起搞出来的那个OISA高密超节点参考设计技术规范说出来。这个规范主要是为了缓解现在智算中心在连网、供电还有散热上遇到的麻烦,给它们找了个全栈式的解决办法。这么一来,以后咱国内自己建智算集群就更稳当、性能也更好了。 以前那些老架构的算力增长老是卡壳,现在OISA通过重新规划空间布局和逻辑拓扑,把这种瓶颈给打破了。光靠单宽机柜容纳那么多卡有点难搞,规范里大胆用了大尺寸的高密线缆,在本来就有32卡到64卡互联的基础上,硬是在一个柜子里塞进去了128卡的全连接,甚至还能并柜子扩展到256卡。这样一来单位面积的算力产出就上去了。 在数据传输这一块,OISA 2.0版本的原生内存语义支持帮了大忙,卡和卡之间的数据流动变得顺畅无阻。再加上用了创新的报文重组技术,这就让卡间的带宽冲到了TB/s这个级别,延迟也降到了几百纳秒左右。这种又密又快的结构,不光让各家国产芯片都能互相配合好,也给大家伙跑大规模模型训练提供了跟单机差不多的计算环境。 面对GPU功耗动不动就700W往上跑、机柜功率逼近350kW的现状,OISA在供电和散热这两个基础上动了大手术。供电方面搞了高压直流系统跟盲插技术的结合,少走了几道中间转换的弯儿,能耗就降下来了。散热这头更是把液冷变成了标配,专门盯着单GPU 2kW以上的热量去优化。PUE值从之前风冷时代的1.4降到了现在的1.05到1.15。 通过智能系统实时盯着流量、压力和温度的变化来诊断故障,这种散热效率提升了好几千倍的技术方案既让系统在高负荷下稳得住劲儿,也给智算产业指明了一条绿色可持续的路。 这次发布标志着产业界从瞎摸索变成了有规矩的合作。规范把产业链上的资源都拢了过来,让大家用起来更方便实惠。芯片、设备、应用这些环节联动起来了,大家就有了更多选路的办法。以后OISA平台还会继续搞开放合作那一套,把Chiplet、光互连、内存池这些先进技术给融进来。中国移动还有之江实验室这些大佬会拉着更多伙伴一块玩,邀请开发者一起参与定制设计。大家在开放中找突破点,在合作里多赚点好处劲儿,共同把高效、绿色、可持续的智算未来给画出来。