2015年,深度学习社区还沉浸在一个旧概念里——残差连接(Residual Connections),这个被认为是大模型的“祖传地基”。经过漫长的发展,虽然它帮了大忙,但AI开发者发现,传统的残差连接让每一层的新贡献被前面的信息淹没了,很多中间层成了“无效干活”。因为它的运算方式太粗暴,把每一层的信息简单地等权相加,随着网络变深,这个问题变得越来越严重。Kimi的团队就琢磨着,能不能给这祖传地基动个手术?3月16日,他们在一篇重磅技术报告里公布了方案——《Attention Residuals》(注意力残差)。这不仅是改变,简直是要把整个深度学习的底层逻辑给重构了。因为有了这个新招,在同样的算力和数据下,模型的训练效果能直接提升25%。举个例子来说,相当于原来要跑1.25倍的计算力才能达到的水平,现在用同样的力气就搞定了。难怪硅谷AI圈都震动了。杰瑞·特沃雷克(Jerry Tworek)这位OpenAI o1的主要发明者直接说这是“深度学习2.0”的开端。就连Andrej Karpathy,前OpenAI的联创大佬也感慨行业对“Attention is All You Need”的理解还有深挖的空间。 那么Kimi到底是怎么干的呢?他们发现了一个很有趣的数学现象:深度方向上的信息丢失跟RNN在时间维度上的遗忘在数学结构上其实是一样的。于是团队就把原本用来处理文字序列的“注意力机制”横向转动90度,把它应用到了纵向的深度维度上。这样一来,每一层不再是被动接受信息叠加了,而是通过一个微小的“查询向量”,主动、有选择性地决定从前面哪些层提取多少信息。 为了解决大规模训练时的内存开销问题,团队还特意搞出了一个Block AttnRes方案。他们把网络划分成好几块(Block),这样既保证了性能不缩水,又把推理延迟增量控制在了2%以内。这次实验的结果太惊艳了。在 GPQA-Diamond 这种科学推理任务上,Kimi团队直接取得了7.5%的飞跃式进步;在数学与代码生成任务上也分别获得了3.6%和3.1%的显著增益。 这事儿的影响有多大?创始人在GTC2026演讲里讲得很明白:行业现在正撞上Scaling的瓶颈了,必须把优化器、残差连接这些底层基石给改改才行。当大家还在忙着“高层精装修”的时候,Kimi选择下沉到最深处,用一记重锤撬动了深度学习的未来。马斯克看到这篇论文的时候还特意点了个赞呢!