Kimi团队提出“注意力残差”优化大模型信息传递 17岁研究者同等贡献引发业内关注

当前，全球人工智能技术发展进入深水区，大模型性能继续提升正遭遇底层架构优化的瓶颈。主流模型普遍采用的Transformer架构自2017年提出以来，其层间信息传递机制“残差连接”存先天局限——随着模型层数加深，早期关键信息更容易被稀释，从而限制整体效率的提升。针对此难题，Kimi团队在最新研究中提出“注意力残差”方案。该方法不再沿用传统的均匀传递思路，而是通过动态筛选更有价值的信息实现跨层传递。实验数据显示，在48B参数规模模型中，这项技术在性能基本不变的前提下，可将训练计算成本降低20%，推理延迟增加不足2%，相当于带来1.25倍的效率增益。研究团队的构成也体现出当代科研的新趋势。除资深研究员张宇、苏剑林外，17岁的陈广宇以“同等贡献作者”身份参与核心研究。这位深圳高中生通过自学论文、参与开源项目积累专业能力，去年暑期在硅谷完成实习后加入团队，其经历也反映出中国青少年在科技领域的成长速度。行业专家认为，该成果具有两上的示范意义：技术层面，为缓解大模型效率瓶颈提供了可操作的路径；在人才层面，显示出“老中青”协同创新的团队结构。据国际数据公司（IDC）统计，2023年中国人工智能研发人员中，30岁以下占比已达37%，年轻力量正在成为技术攻关的重要支撑。展望未来，随着基础研究领域的年轻人才持续涌现，并结合校企联合培养机制的完善，我国在人工智能底层技术创新上有望形成更稳定的持续突破能力。

大模型发展进入“深水区”——竞争力不只取决于规模——更取决于对底层机制的改进，以及对算力成本的精细控制。坚持可验证的技术路线，让团队协作与开放生态成为常态，才能把阶段性成果转化为可持续的产业能力与更具韧性的科技进步。