研究发现主流智能对话系统存在多轮交流性能衰减可靠性下降超110%引发行业反思

微软研究院与赛富时近日联合发布研究成果。研究团队对15款主流大语言模型进行了超过20万次模拟对话分析，指出当前人工智能系统在真实应用中存在不容忽视的风险。结果显示，模型在多轮对话任务中的表现与单轮任务差距明显，暴露出业内长期低估的关键问题。根据研究数据，测试对象包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4等产品。在单次提示任务中，这些模型的成功率可达90%；但当同一任务被拆解为多轮自然对话后，成功率降至约65%。同时，模型的“不可靠性”指标上升112%，意味着系统在复杂交互中的稳定性显著下降。研究人员深入分析发现，模型核心能力本身的下降幅度相对有限，约为15%，不足以解释整体性能的大幅下滑。更主要的原因是模型在多轮对话中难以持续保持上下文一致性，系统性失误随之增多。研究团队将该现象称为“迷失会话”，指向现有大语言模型架构在长链路交互中的内在局限。研究认为，该问题主要由两类机制驱动：其一是“过早生成”。模型在用户需求尚未完整表达时就提前作答，早期回合一旦形成偏差，后续推理便容易在错误前提上继续展开，使偏差不断累积。其二是“答案膨胀”。多轮对话下，模型回复长度较单轮增加20%至300%，内容越长越容易夹带推测性表述和细微错误，这些信息被写入上下文后，又会进一步干扰后续推理。，即便采用新型“思考词元”机制的推理模型，如OpenAI o3和DeepSeek R1，多轮对话表现也未出现明显改善，说明该问题并非现有增强推理方案即可轻易解决。研究还指出，将温度参数设为零这一常见的稳定性手段，对多轮对话中的衰减现象几乎无明显缓解。该研究也对行业评估体系提出质疑。当前多数基准测试以单轮、一次性提供完整指令的理想场景为主；而真实的人机交流往往是渐进式的，信息在多轮互动中逐步补充。评测设计与实际使用场景存在落差，容易导致模型能力被高估。对依赖大语言模型构建复杂对话流程或智能体系统的开发者来说，这意味着更现实的工程挑战。研究建议的相对可行策略，是重新设计交互流程：尽可能在单个完整提示中一次性提供必要数据、约束条件与指令，以减少多轮往返带来的可靠性风险。该做法可能牺牲部分对话灵活性，但有助于提升输出的一致性与准确性。

多轮对话表面上是交互形式的变化，实质考验的是系统在信息不完整、持续反馈和复杂约束下的长期稳定性；随着技术从演示走向生产，能否在长链路中保持一致性、及时纠错并具备可监管性，将比“答得快、答得长”更关键。用更贴近真实场景的评测校准能力预期，并以更严密的流程设计守住应用底线，才能让新技术在更广泛的场景中稳妥释放价值。

研究发现主流智能对话系统存在多轮交流性能衰减 可靠性下降超110%引发行业反思

研究发现主流智能对话系统存在多轮交流性能衰减可靠性下降超110%引发行业反思