研究显示大语言模型多轮对话“碎片输入”易致能力下滑 最高降幅近四成

新一代大语言模型在单轮对话和“把信息一次性写进提示词”的场景中表现突出,但一旦任务需要跨多轮交互推进,短板就会明显暴露。研究员菲利普·拉班(Philip Raban)及其团队近期完成了一项系统研究,对这个现象进行了拆解分析。研究团队选取代码编写、数据库查询、操作指令执行、数据转文本、数学计算和文本摘要六类典型任务,对主流大语言模型开展对标测试。测试重点考察信息呈现方式的差异:一类是将全部信息集中在单次提示词中;另一类是把信息分散在多条消息里,以贴近真实的多轮对话。结果显示,当信息以分片形式分散在多条消息中时,模型任务完成率会显著下降。较早版本模型的最高降幅可达39%;较新版本有所改善,但降幅仍在33%左右,问题并未根本消失。不同任务受影响程度也不相同:Python代码任务相对“抗衰减”,部分模型在该类任务上的损失仅10%至20%,而其他任务的性能下滑更为明显。拉班团队还指出,实验室测试采用了较简化的用户模拟;而在真实使用中,用户往往会在对话过程中改变目标、补充约束或提出新指令,这种动态变化会更放大性能下滑,实际损失可能高于实验结果。为应对这一瓶颈,研究人员尝试了包括调整温度值在内的常见微调手段,但对多轮对话中的性能衰减帮助有限。研究团队因此提出一套更实用的操作建议:当模型在多轮对话中出现异常或明显“跑偏”时,可以新开一段对话;在开启新对话前,先让模型对此前所有请求与关键信息做一次完整总结,再将该总结作为新对话的起点与上下文。通过重新组织信息结构,这一方法可在一定程度上缓解多轮对话带来的性能下降。该研究对大语言模型落地应用具有直接参考价值。随着生成式人工智能在客服、咨询、教育等场景加速普及,多轮对话能力已成为衡量可用性的重要指标,而现阶段的不足会影响用户体验和任务结果的稳定性。

这项研究揭示了大语言模型在真实交互中的隐性短板,也提醒业界需要同步优化人机协作方式;与其只追求模型规模扩张,不如在交互逻辑与对话管理上寻求关键突破。正如研究者所言:“真正的智能不仅在于回答问题,更在于理解对话的流动与演变。”这个观点或将影响未来人机交互的技术路径与产品设计。