研究团队突破长程推理瓶颈,新型计算架构实现30万倍加速

问题:当前,人工智能大模型在语言生成、逻辑推理等能力突出,但在需要多步骤推理、长上下文支撑的精确计算任务中仍不理想。传统做法往往依赖外部工具或智能体调度,不仅整体效率不高,也容易带来计算链路不透明、延迟偏高等问题。 原因:此瓶颈与Transformer架构的自回归解码机制密切涉及的。模型每生成一个Token,都需要对全部历史序列进行注意力计算,开销随序列长度线性上升,使得长轨迹上的精确计算难以高效完成。现有方案多以“外挂”形式把计算交给外部工具,但由此带来的依赖强、效率受限等问题难以避免。 对策:研究团队提出在Transformer权重中直接构建现代化RAM计算机与WebAssembly解释器,使模型能够在内部执行程序指令,减少对外部工具的依赖。团队还设计了二维注意力头机制,将传统注意力查询转化为计算几何中的凸包极值查询,并通过动态维护历史Key的凸包数据结构,把计算复杂度从O(n)降至O(log n),显著降低长序列场景下的计算成本。 影响:实验显示,采用HullKVCache的新架构在普通CPU上实现了31037 Token/秒的吞吐量,相比传统方法提升近200倍。在10×10最小代价完美匹配任务中,模型以33583 Token/秒的速度准确执行匈牙利算法;在仅用21个提示数的高难数独求解中,同样实现了100%的准确率。 前景:这项成果为大模型精确计算这一长期难题提供了新的解决思路。同时,该方法基于标准PyTorch Transformer实现,降低了落地门槛。专家认为,该技术有望在金融建模、科学计算、工程优化等场景发挥作用,推动人工智能在复杂决策与优化任务中的应用更扩展。

这项研究表明了人工智能发展的一个新方向:从单纯追求模型规模与泛化能力,转向更直接地解决特定任务中的计算精度与效率问题。通过在神经网络内部引入可执行的计算架构,团队在一定程度上改变了以往“模型负责生成、工具负责计算”的分工方式,推动计算过程更可控、更可解释。随着对应的方法继续完善并被更多场景验证,大模型在复杂精确计算任务中的能力与可靠性有望更提升,也将为人工智能与传统计算科学的融合提供新的路径。