研究团队突破长程推理瓶颈，新型计算架构实现30万倍加速

问题：当前，人工智能大模型在语言生成、逻辑推理等能力突出，但在需要多步骤推理、长上下文支撑的精确计算任务中仍不理想。传统做法往往依赖外部工具或智能体调度，不仅整体效率不高，也容易带来计算链路不透明、延迟偏高等问题。原因：此瓶颈与Transformer架构的自回归解码机制密切涉及的。模型每生成一个Token，都需要对全部历史序列进行注意力计算，开销随序列长度线性上升，使得长轨迹上的精确计算难以高效完成。现有方案多以“外挂”形式把计算交给外部工具，但由此带来的依赖强、效率受限等问题难以避免。对策：研究团队提出在Transformer权重中直接构建现代化RAM计算机与WebAssembly解释器，使模型能够在内部执行程序指令，减少对外部工具的依赖。团队还设计了二维注意力头机制，将传统注意力查询转化为计算几何中的凸包极值查询，并通过动态维护历史Key的凸包数据结构，把计算复杂度从O(n)降至O(log n)，显著降低长序列场景下的计算成本。影响：实验显示，采用HullKVCache的新架构在普通CPU上实现了31037 Token/秒的吞吐量，相比传统方法提升近200倍。在10×10最小代价完美匹配任务中，模型以33583 Token/秒的速度准确执行匈牙利算法；在仅用21个提示数的高难数独求解中，同样实现了100%的准确率。前景：这项成果为大模型精确计算这一长期难题提供了新的解决思路。同时，该方法基于标准PyTorch Transformer实现，降低了落地门槛。专家认为，该技术有望在金融建模、科学计算、工程优化等场景发挥作用，推动人工智能在复杂决策与优化任务中的应用更扩展。

这项研究表明了人工智能发展的一个新方向：从单纯追求模型规模与泛化能力，转向更直接地解决特定任务中的计算精度与效率问题。通过在神经网络内部引入可执行的计算架构，团队在一定程度上改变了以往“模型负责生成、工具负责计算”的分工方式，推动计算过程更可控、更可解释。随着对应的方法继续完善并被更多场景验证，大模型在复杂精确计算任务中的能力与可靠性有望更提升，也将为人工智能与传统计算科学的融合提供新的路径。