高通提出多词并行生成新方法破解大模型逐字输出难题

问题——生成“逐字输出”制约大模型落地效率。当前主流大型语言模型在文本生成时多采用自回归方式：每生成一个字词就进行一次完整推理，再生成下一个字词。该机制在保证准确性的同时带来明显的时间与算力开销，尤其在长文本写作、实时对话、代码补全等场景中，延迟与成本成为影响体验和规模化部署的主要瓶颈。业内长期关注的核心问题是：能否让模型在一次推理中给出多个后续字词，从而减少重复计算，同时不以大规模再训练或架构重构为代价。原因——模型“具备能力”但缺少有效唤醒方式。研究团队指出，大模型在训练过程中已学习到丰富的上下文关联与未来信息的统计规律，内部表征往往包含对未来多个位置的预测线索。效率受限的关键不在于模型缺乏“多步预想”能力，而在于推理阶段的输入形式与解码流程没有把这种能力调动出来。换言之，模型可能已在内部形成多个候选未来字词的表示，但传统逐步解码只允许其按顺序逐个位置输出，导致重复推理与信息利用不足。影响——为降低推理成本、提升交互速度提供新路径。该预印本提出一种“无需再训练”的多令牌预测思路：在输入末尾追加一组构造过的“掩码令牌”，让模型同时对这些位置给出预测，从而实现一次推理生成多步候选。研究认为，这相当于在不改动模型参数的前提下，改变推理时的“提问方式”，使模型在同一轮前向计算中完成对多个未来位置的估计。若在工程侧与解码策略配合得当，有望在相同硬件条件下提升生成吞吐、降低端到端响应时间，并为端侧设备、低功耗场景与高并发服务带来新的优化空间。对策——以“掩码令牌”探测潜在表征，并用理论与机制分析增强可信度。围绕如何构造有效的掩码令牌，研究提出三类方案：一是“硬初始化”，利用已出现的末尾字词信息作为引导；二是“软初始化”，聚合当前上下文的语义特征，形成更贴近整体语义的引导向量；三是“分布采样”，从词汇分布中采样以扩大探索范围。实验结果显示，“软初始化”更具优势，能更稳定地引导模型在多位置预测上接近真实后续字词。为解释方法为何有效，研究继续分析模型内部表示，发现当网络进入较深层（论文描述约在第15层之后）时，掩码令牌对应的隐藏表示与真实未来字词的隐藏表示具有较高相似性。研究使用余弦相似度等指标评估，并提出：当相似度达到一定阈值时，正确答案进入Top-K候选集合的概率会明显提高。同时，研究给出相应定理，论证在特定相似度条件下，正确字词将出现在Top-K预测列表中，为方法的可解释性与稳定性提供理论支撑。此外，研究还讨论了动态构造预测路径的思路。相较以往需要预设固定预测树的多令牌方法，新方案强调依据模型输出概率自适应扩展分支，并以累积概率等准则动态决定探索深度与宽度，从而在精度、速度与计算预算之间取得更灵活的平衡。该方向若与工程实现结合，有望减少无效分支计算，提高多令牌预测的整体收益。前景——从“算法可行”走向“规模可用”仍需跨越工程与评测门槛。业内人士认为，该预印本为大模型推理加速提供了值得关注的思路：在不增加大规模训练成本的前提下，通过输入构造与解码策略挖掘模型既有能力，契合当前降本增效的需求。下一步关键在于：其一，如何在不同规模、不同架构、不同语言与任务（对话、写作、检索增强、代码生成等）中验证泛化性与鲁棒性；其二，如何与现有采样、约束解码、缓存与并行推理等技术协同，形成可复用的工程化方案；其三，建立更贴近应用的评测体系，综合衡量速度提升、错误累积风险、事实一致性与安全性等指标，避免“多步预测”引发连锁偏差。

这项研究聚焦推理阶段的效率瓶颈，提供了一条不依赖再训练的优化路径，也提示行业：大模型能力的提升未必只能依靠“外部改造”，同样可能来自对既有能力的更挖掘。随着技术进入更强调落地与成本的阶段，如何用更精细的输入设计与解码机制释放模型内部潜力，或将成为下一轮工程竞争的重要方向。

高通提出多词并行生成新方法 破解大模型逐字输出难题

高通提出多词并行生成新方法破解大模型逐字输出难题