深度学习2.0的开端，kimi的团队就琢磨着，能不能给这祖传地基动个手术？

2015年，深度学习社区还沉浸在一个旧概念里——残差连接（Residual Connections），这个被认为是大模型的“祖传地基”。经过漫长的发展，虽然它帮了大忙，但AI开发者发现，传统的残差连接让每一层的新贡献被前面的信息淹没了，很多中间层成了“无效干活”。因为它的运算方式太粗暴，把每一层的信息简单地等权相加，随着网络变深，这个问题变得越来越严重。Kimi的团队就琢磨着，能不能给这祖传地基动个手术？3月16日，他们在一篇重磅技术报告里公布了方案——《Attention Residuals》（注意力残差）。这不仅是改变，简直是要把整个深度学习的底层逻辑给重构了。因为有了这个新招，在同样的算力和数据下，模型的训练效果能直接提升25%。举个例子来说，相当于原来要跑1.25倍的计算力才能达到的水平，现在用同样的力气就搞定了。难怪硅谷AI圈都震动了。杰瑞·特沃雷克（Jerry Tworek）这位OpenAI o1的主要发明者直接说这是“深度学习2.0”的开端。就连Andrej Karpathy，前OpenAI的联创大佬也感慨行业对“Attention is All You Need”的理解还有深挖的空间。那么Kimi到底是怎么干的呢？他们发现了一个很有趣的数学现象：深度方向上的信息丢失跟RNN在时间维度上的遗忘在数学结构上其实是一样的。于是团队就把原本用来处理文字序列的“注意力机制”横向转动90度，把它应用到了纵向的深度维度上。这样一来，每一层不再是被动接受信息叠加了，而是通过一个微小的“查询向量”，主动、有选择性地决定从前面哪些层提取多少信息。为了解决大规模训练时的内存开销问题，团队还特意搞出了一个Block AttnRes方案。他们把网络划分成好几块（Block），这样既保证了性能不缩水，又把推理延迟增量控制在了2%以内。这次实验的结果太惊艳了。在 GPQA-Diamond 这种科学推理任务上，Kimi团队直接取得了7.5%的飞跃式进步；在数学与代码生成任务上也分别获得了3.6%和3.1%的显著增益。这事儿的影响有多大？创始人在GTC2026演讲里讲得很明白：行业现在正撞上Scaling的瓶颈了，必须把优化器、残差连接这些底层基石给改改才行。当大家还在忙着“高层精装修”的时候，Kimi选择下沉到最深处，用一记重锤撬动了深度学习的未来。马斯克看到这篇论文的时候还特意点了个赞呢！