北京时间3月18日凌晨,2026年英伟达GTC大会在美国举行期间,月之暗面(Moonshot AI)创始人杨植麟登台发表主题演讲,以《How We Scaled Kimi K2.5》为题,首次向外界系统性披露Kimi K2.5模型背后的完整技术路线图。
这是中国头部大模型企业在国际顶级算力峰会上就核心技术体系进行的一次深度公开阐释,引发业界广泛关注。
一、底层架构重构:打破训练瓶颈的技术突破 杨植麟在演讲中明确指出,推动大模型智能上限持续提升,仅靠扩大算力投入已难以为继,必须从优化器、注意力机制、残差连接等底层基础结构入手,进行系统性重构。
在优化器层面,Kimi团队通过大规模实验验证了Muon优化器在提升训练Token效率方面的显著潜力,并在此基础上自主研发并开源了MuonClip优化器。
该优化器针对万亿参数规模模型训练中长期存在的Logits爆炸问题提出了有效解决方案,为超大规模模型的稳定训练提供了工程保障。
在注意力机制层面,Kimi团队推出了名为Kimi Linear的混合线性注意力架构。
这一架构打破了业界长期沿用的"所有层均采用全注意力"的惯例,通过优化递归存储管理机制,在128K乃至百万级超长上下文场景中,将模型解码速度提升了5至6倍。
这一进展对于处理长文档、长对话等实际应用场景具有重要意义。
二、残差连接创新:十年经典结构迎来重大改进 3月16日,Kimi团队发布技术报告《Attention Residuals》(注意力残差),对深度学习领域沿用逾十年的残差连接结构提出了系统性改进方案。
传统残差结构通过对每一层输出进行统一求和来实现信息传递,这一机制在模型深度不断增加的背景下逐渐暴露出信息传递效率不足的局限。
Kimi团队提出的注意力残差方案,允许模型在每一层选择性地关注此前各层的输出,而非简单叠加,从而实现更精细的跨层信息调度。
技术报告显示,经过该方案改进的48B参数规模模型,训练效率提升了1.25倍,验证了这一结构创新的实际价值。
三、智能体集群扩展:从单体智能走向协同进化 演讲的后半部分,杨植麟将视野延伸至更长远的技术演进方向。
他判断,未来的智能形态将从单一智能体向动态生成的集群结构演进,这一趋势将深刻改变大模型的应用范式。
为此,Kimi K2.5引入了Orchestrator机制,能够将复杂的长周期任务拆解并分配给数十个子智能体并行处理,大幅提升任务执行效率。
然而,多智能体协作体系也面临新的挑战——协作过程中一旦出现单点依赖,极易引发"串行塌缩",导致并行优势丧失。
对此,团队专门设计了全新的并行强化学习奖励函数,通过激励机制引导模型真正掌握任务分解与并行执行的能力,从根本上规避协作失效风险。
四、规模化路径重塑:三维协同取代单一资源堆砌 杨植麟在演讲中提出了一个具有方向性意义的判断:当前大模型的规模化路径,已不再是单纯的算力与数据堆砌,而是需要在计算效率、长程记忆与自动化协作三个维度上同步寻求规模效应。
他认为,若能将这三个维度的技术增益形成乘数效应,模型所能达到的智能水平将远超现有认知边界。
这一判断与近期国际学术界和产业界的主流趋势高度吻合。
多家头部研究机构的报告均指出,单纯依赖参数规模扩张的路线正在遭遇边际效益递减,架构创新与系统协同正成为新一轮技术竞争的核心战场。
在人工智能技术进入深水区的当下,基础架构创新正成为突破发展瓶颈的核心驱动力。
杨植麟团队展示的技术路线不仅为解决当前挑战提供了可行方案,更勾勒出智能系统从单点突破向协同进化的未来图景。
这场演讲或将激励更多研究者回归技术本质,在基础理论层面寻求更具革命性的突破。