最近,北京大学的张牧涵教授带领团队搞出了个大新闻,在昇腾算力的支持下,他们弄出了一个叫TransMLA的通用转换框架。这个东西特别厉害,能把以前那种用分组查询注意力架构训练好的大模型,无损地转换成多头潜在注意力架构,而且还不用重新训练。这对搞人工智能的人来说可是个大福音,因为大家以前用的模型多是老架构,现在想换新架构又舍不得推倒重来,现在有了这个框架就省事多了。 团队攻克了几个关键问题:结构映射、位置编码适配、参数效率优化和数值稳定性提升。他们设计了线性变换方法,把原来的分组键值向量变成了低秩的潜在表示;还搞出了RoRoPE技术,让位置编码能顺利融入低秩压缩;又用频率折叠技术减少参数量;最后均衡了键值矩阵的范数分布。昇腾的高效并行计算架构给了结构映射这些复杂模块很大的支持,深度优化的存储和缓存体系也让参数压缩变得更稳定。 实测数据显示效果非常好。以LLaMA-2-7B为例,用TransMLA转换后,内存占用一下子少了68.75%,性能几乎没什么损失。在推理速度上,相比其他硬件平台也有明显优势。最重要的是这个框架可以支持多种主流模型的部署需求。张牧涵说他们会把TransMLA集成到vLLM、SGLang这些推理框架里去。这样开发者用起来就方便了很多。 这次突破不仅解决了技术问题,还让产业界用上国产算力变得更简单。这也是北京大学鲲鹏昇腾科教创新卓越中心助力产业降本增效的一个例子。未来随着软硬件协同创新的深入发展,我国的人工智能产业肯定能越走越稳。