transformer 内置计算机?这确实让卡帕西为之叫好,毕竟这技术让大模型推理的速度冲上了每秒

Transformer内置计算机?这确实让卡帕西为之叫好,毕竟这技术让大模型推理的速度冲上了每秒3万多Token,居然还拿下了世界最难的数独。AI在逻辑推理方面确实厉害,但真要算那种多步骤、长上下文的精细活儿,就很容易力不从心。以前大家只能靠给模型挂外部工具或者智能体来弥补短板,这本质上还是把计算能力包给了外面的硬件。可标准的Transformer自回归解码模式太拖后腿,每生成一个Token都要回头重扫整个历史序列,计算量随着序列变长指数级增加。 最近Percepta团队找到了新招,干脆直接把Transformer当成计算机用。他们在模型权重里塞进去一套现代RAM和WebAssembly解释器。WebAssembly就好比特别高效稳定的机器指令,C、C++这类代码都能编译成它。比如要算3加5,模型先把这段程序写好,然后切换到快速解码模式在内部跑一遍,同时把执行过程按行输出成一串Token流。结果直接从输出里冒出来,再也不用等外部工具返回了,计算过程也从黑箱变成了白盒。 光有计算机还不行,效率得提上来才行。针对这个问题,团队搞了个二维注意力头的设计。每个历史Token的Key向量是二维的,当前Query向量就是平面上的一个方向。找匹配就变成了找二维平面上沿Query方向最远的点。借助凸包数据结构维护历史Key的凸包,注意力查询的复杂度从O(n)降到了O(log n)。他们基于这个原理搞了个HullKVCache缓存技术。这东西在普通CPU上跑能达到每秒31037 Token的吞吐量,处理约9000行指令只花了1.3秒,效率比传统KV缓存高出了近200倍。 为了验证这套方法,团队挑了两个特别难搞的精确计算任务。一个是10×10的最小代价完美匹配问题,另一个是只有21个提示数的Arto Inkala数独。做完美匹配时模型内部跑匈牙利算法生成计算轨迹;解数独时执行一个编译好的求解器先填单元格再搜索回溯。结果在3分钟内把那个21格数独100%精确解出来了。 这项工作由Christos Tzamos带头搞出来的。他是麻省理工博士、雅典大学副教授和Percepta创始研究员。Percepta是General Catalyst旗下的AI转型公司,团队里有不少来自Meta FAIR、MIT和Google的人才。如果你对这个话题感兴趣,可以去看看他们的博客。