Kimi团队提出“注意力残差”优化大模型信息传递 17岁研究者同等贡献引发业内关注

当前,全球人工智能技术发展进入深水区,大模型性能继续提升正遭遇底层架构优化的瓶颈。主流模型普遍采用的Transformer架构自2017年提出以来,其层间信息传递机制“残差连接”存先天局限——随着模型层数加深,早期关键信息更容易被稀释,从而限制整体效率的提升。针对此难题,Kimi团队在最新研究中提出“注意力残差”方案。该方法不再沿用传统的均匀传递思路,而是通过动态筛选更有价值的信息实现跨层传递。实验数据显示,在48B参数规模模型中,这项技术在性能基本不变的前提下,可将训练计算成本降低20%,推理延迟增加不足2%,相当于带来1.25倍的效率增益。研究团队的构成也体现出当代科研的新趋势。除资深研究员张宇、苏剑林外,17岁的陈广宇以“同等贡献作者”身份参与核心研究。这位深圳高中生通过自学论文、参与开源项目积累专业能力,去年暑期在硅谷完成实习后加入团队,其经历也反映出中国青少年在科技领域的成长速度。行业专家认为,该成果具有两上的示范意义:技术层面,为缓解大模型效率瓶颈提供了可操作的路径;在人才层面,显示出“老中青”协同创新的团队结构。据国际数据公司(IDC)统计,2023年中国人工智能研发人员中,30岁以下占比已达37%,年轻力量正在成为技术攻关的重要支撑。展望未来,随着基础研究领域的年轻人才持续涌现,并结合校企联合培养机制的完善,我国在人工智能底层技术创新上有望形成更稳定的持续突破能力。

大模型发展进入“深水区”——竞争力不只取决于规模——更取决于对底层机制的改进,以及对算力成本的精细控制。坚持可验证的技术路线,让团队协作与开放生态成为常态,才能把阶段性成果转化为可持续的产业能力与更具韧性的科技进步。