研究发现主流智能对话系统存在多轮交流性能衰减 可靠性下降超110%引发行业反思

微软研究院与赛富时近日联合发布研究成果。研究团队对15款主流大语言模型进行了超过20万次模拟对话分析,指出当前人工智能系统在真实应用中存在不容忽视的风险。结果显示,模型在多轮对话任务中的表现与单轮任务差距明显,暴露出业内长期低估的关键问题。根据研究数据,测试对象包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4等产品。在单次提示任务中,这些模型的成功率可达90%;但当同一任务被拆解为多轮自然对话后,成功率降至约65%。同时,模型的“不可靠性”指标上升112%,意味着系统在复杂交互中的稳定性显著下降。研究人员深入分析发现,模型核心能力本身的下降幅度相对有限,约为15%,不足以解释整体性能的大幅下滑。更主要的原因是模型在多轮对话中难以持续保持上下文一致性,系统性失误随之增多。研究团队将该现象称为“迷失会话”,指向现有大语言模型架构在长链路交互中的内在局限。研究认为,该问题主要由两类机制驱动:其一是“过早生成”。模型在用户需求尚未完整表达时就提前作答,早期回合一旦形成偏差,后续推理便容易在错误前提上继续展开,使偏差不断累积。其二是“答案膨胀”。多轮对话下,模型回复长度较单轮增加20%至300%,内容越长越容易夹带推测性表述和细微错误,这些信息被写入上下文后,又会进一步干扰后续推理。,即便采用新型“思考词元”机制的推理模型,如OpenAI o3和DeepSeek R1,多轮对话表现也未出现明显改善,说明该问题并非现有增强推理方案即可轻易解决。研究还指出,将温度参数设为零这一常见的稳定性手段,对多轮对话中的衰减现象几乎无明显缓解。该研究也对行业评估体系提出质疑。当前多数基准测试以单轮、一次性提供完整指令的理想场景为主;而真实的人机交流往往是渐进式的,信息在多轮互动中逐步补充。评测设计与实际使用场景存在落差,容易导致模型能力被高估。对依赖大语言模型构建复杂对话流程或智能体系统的开发者来说,这意味着更现实的工程挑战。研究建议的相对可行策略,是重新设计交互流程:尽可能在单个完整提示中一次性提供必要数据、约束条件与指令,以减少多轮往返带来的可靠性风险。该做法可能牺牲部分对话灵活性,但有助于提升输出的一致性与准确性。

多轮对话表面上是交互形式的变化,实质考验的是系统在信息不完整、持续反馈和复杂约束下的长期稳定性;随着技术从演示走向生产,能否在长链路中保持一致性、及时纠错并具备可监管性,将比“答得快、答得长”更关键。用更贴近真实场景的评测校准能力预期,并以更严密的流程设计守住应用底线,才能让新技术在更广泛的场景中稳妥释放价值。