研究显示大语言模型多轮对话“碎片输入”易致能力下滑最高降幅近四成

新一代大语言模型在单轮对话和“把信息一次性写进提示词”的场景中表现突出，但一旦任务需要跨多轮交互推进，短板就会明显暴露。研究员菲利普·拉班（Philip Raban）及其团队近期完成了一项系统研究，对这个现象进行了拆解分析。研究团队选取代码编写、数据库查询、操作指令执行、数据转文本、数学计算和文本摘要六类典型任务，对主流大语言模型开展对标测试。测试重点考察信息呈现方式的差异：一类是将全部信息集中在单次提示词中；另一类是把信息分散在多条消息里，以贴近真实的多轮对话。结果显示，当信息以分片形式分散在多条消息中时，模型任务完成率会显著下降。较早版本模型的最高降幅可达39%；较新版本有所改善，但降幅仍在33%左右，问题并未根本消失。不同任务受影响程度也不相同：Python代码任务相对“抗衰减”，部分模型在该类任务上的损失仅10%至20%，而其他任务的性能下滑更为明显。拉班团队还指出，实验室测试采用了较简化的用户模拟；而在真实使用中，用户往往会在对话过程中改变目标、补充约束或提出新指令，这种动态变化会更放大性能下滑，实际损失可能高于实验结果。为应对这一瓶颈，研究人员尝试了包括调整温度值在内的常见微调手段，但对多轮对话中的性能衰减帮助有限。研究团队因此提出一套更实用的操作建议：当模型在多轮对话中出现异常或明显“跑偏”时，可以新开一段对话；在开启新对话前，先让模型对此前所有请求与关键信息做一次完整总结，再将该总结作为新对话的起点与上下文。通过重新组织信息结构，这一方法可在一定程度上缓解多轮对话带来的性能下降。该研究对大语言模型落地应用具有直接参考价值。随着生成式人工智能在客服、咨询、教育等场景加速普及，多轮对话能力已成为衡量可用性的重要指标，而现阶段的不足会影响用户体验和任务结果的稳定性。

这项研究揭示了大语言模型在真实交互中的隐性短板，也提醒业界需要同步优化人机协作方式；与其只追求模型规模扩张，不如在交互逻辑与对话管理上寻求关键突破。正如研究者所言：“真正的智能不仅在于回答问题，更在于理解对话的流动与演变。”这个观点或将影响未来人机交互的技术路径与产品设计。

研究显示大语言模型多轮对话“碎片输入”易致能力下滑 最高降幅近四成

研究显示大语言模型多轮对话“碎片输入”易致能力下滑最高降幅近四成