transformer 内置计算机？这确实让卡帕西为之叫好，毕竟这技术让大模型推理的速度冲上了每秒

Transformer内置计算机？这确实让卡帕西为之叫好，毕竟这技术让大模型推理的速度冲上了每秒3万多Token，居然还拿下了世界最难的数独。AI在逻辑推理方面确实厉害，但真要算那种多步骤、长上下文的精细活儿，就很容易力不从心。以前大家只能靠给模型挂外部工具或者智能体来弥补短板，这本质上还是把计算能力包给了外面的硬件。可标准的Transformer自回归解码模式太拖后腿，每生成一个Token都要回头重扫整个历史序列，计算量随着序列变长指数级增加。最近Percepta团队找到了新招，干脆直接把Transformer当成计算机用。他们在模型权重里塞进去一套现代RAM和WebAssembly解释器。WebAssembly就好比特别高效稳定的机器指令，C、C++这类代码都能编译成它。比如要算3加5，模型先把这段程序写好，然后切换到快速解码模式在内部跑一遍，同时把执行过程按行输出成一串Token流。结果直接从输出里冒出来，再也不用等外部工具返回了，计算过程也从黑箱变成了白盒。光有计算机还不行，效率得提上来才行。针对这个问题，团队搞了个二维注意力头的设计。每个历史Token的Key向量是二维的，当前Query向量就是平面上的一个方向。找匹配就变成了找二维平面上沿Query方向最远的点。借助凸包数据结构维护历史Key的凸包，注意力查询的复杂度从O(n)降到了O(log n)。他们基于这个原理搞了个HullKVCache缓存技术。这东西在普通CPU上跑能达到每秒31037 Token的吞吐量，处理约9000行指令只花了1.3秒，效率比传统KV缓存高出了近200倍。为了验证这套方法，团队挑了两个特别难搞的精确计算任务。一个是10×10的最小代价完美匹配问题，另一个是只有21个提示数的Arto Inkala数独。做完美匹配时模型内部跑匈牙利算法生成计算轨迹；解数独时执行一个编译好的求解器先填单元格再搜索回溯。结果在3分钟内把那个21格数独100%精确解出来了。这项工作由Christos Tzamos带头搞出来的。他是麻省理工博士、雅典大学副教授和Percepta创始研究员。Percepta是General Catalyst旗下的AI转型公司，团队里有不少来自Meta FAIR、MIT和Google的人才。如果你对这个话题感兴趣，可以去看看他们的博客。