多家国产芯片实现GLM-5“Day0”适配 国产算力与开源大模型协同加速落地

当前,大模型与芯片的适配兼容已成为制约国产AI产业发展的关键瓶颈。智谱GLM-5的发布及其国产芯片平台上的快速适配,反映出我国在自主创新算力生态建设上的实质性进展。 从技术层面看,此次多款国产芯片实现Day0适配的背后,是深层次的工程协同与优化工作。海光信息的DCU团队与智谱AI进行了深度协同,通过自研软件栈DTK的优势,重点优化了底层算子与硬件加速机制,使GLM-5在海光DCU上实现了高吞吐、低延迟的稳定运行。这种优化不仅涉及模型层面的适配,更涉及芯片架构、编译器、运行时等全栈技术的协调。 摩尔线程的适配方案同样反映了该特点。该公司基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上完成了全流程适配与验证。通过MUSA架构算子的深度覆盖与生态兼容能力,摩尔线程打通了模型推理全链路,并释放了MTT S5000的原生FP8加速能力。据公开信息,MTT S5000基于第四代MUSA架构"平湖"打造,单卡AI算力最高可达1000 TFLOPS——配备80GB显存——显存带宽达到1.6TB/s,卡间互联带宽为784GB/s,完整支持从FP8到FP64的全精度计算。这些指标的公布,为业界评估国产芯片性能提供了量化参考。 有一点是,智谱GLM-5本身的技术进步也为适配工作奠定了基础。该模型在参数规模上从355B扩展至744B,预训练数据从23T提升至28.5T,在编码与Agent能力上达到开源最先进水平。更重要的是,GLM-5首次集成了稀疏注意力机制,在维持长文本效果无损的同时,大幅降低了模型部署成本、提升了Token效率。这些特性使得模型在国产芯片上的部署更加高效可行。 从生态协同的广度看,智谱GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等主流国产芯片平台的深度推理适配与算子级优化。这表明国产芯片厂商已形成了围绕大模型适配的共识与合力,不再是各自为政的状态。华为计算上此前表示,昇腾NPU和昇思MindSpore AI框架提供从数据到训练的全流程支撑,这种全栈支持体系的建立,为大模型与芯片的深度融合创造了条件。 从产业影响看,国产芯片与国产大模型的适配成功具有多重意义。首先,它打破了国产芯片"有硬件无生态"的困局,使得国产算力能够真正承载先进的AI应用。其次,它为国产大模型的推广应用提供了可靠的硬件基础,避免了对国外芯片的依赖。再次,这种适配的成功示范效应将激励更多国产芯片厂商投入到大模型生态建设中,形成良性循环。 从前瞻性角度看,国产芯片与大模型的协同发展仍需几个上深化。一是要继续优化算子库与编译器,提升国产芯片对各类模型的通用适配能力,而不仅限于特定模型。二是要建立更加开放的生态标准,降低不同芯片与模型之间的适配成本。三是要在高端芯片的性能指标上继续突破,缩小与国际先进水平的差距。四是要加强基础软件与工具链的投入,为整个生态提供更坚实的技术支撑。

这次大模型与国产芯片的协同创新实践,既展现了我国科技企业的技术实力,也说明了产业链协作的优势。在全球数字经济竞争日益激烈的背景下,持续推进核心技术自主可控战略,构建安全高效的算力基础设施,将成为高质量发展的重要推动力。未来如何将单点突破转化为系统优势,仍需产业界共同探索。