微软最近有个研究发现,说AI聊天机器人聊得越久越“笨”,复杂对话的不靠谱程度涨了112%。AI导读说,顶尖的大模型在多轮对话中成功率从90%掉到了65%,不可靠性一下子飙了112%。这些模型容易早早就给个错误答案,还在后来继续放大错误,连最新的推理模型也免不了这个问题。Windows Central说,微软研究院跟Salesforce合作搞了个研究,证明了现在最先进的大语言模型在多轮对话里很不靠谱。他们把GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1还有Llama 4这15个顶尖模型拿出来测了测,总共做了20多万次模拟对话。研究发现有个毛病叫“迷失会话”。数据显示这些模型做单个任务成功率能到90%,但拆成多轮对话后成功率掉到了65%左右。研究人员说这些模型本身的能力并没有降很多——核心能力才跌了15%——但不靠谱性就翻了112%。就是说它们还能解决问题,但在多轮对话里变得很不稳定。现在大家测试模型主要是看“单轮”表现,就是一次性给全指令的理想情况。但现实中的交流是渐进式的,信息是慢慢补进去的。研究发现一旦把任务拆分到好几个回合里,先进的模型也容易犯错。他们又仔细看了看造成表现下滑的机制。第一是“过早生成”:模型经常在用户还没说完需求前就给出答案。如果在第一轮就形成了错误假设,后面就会一直顺着这个错的思路走,不随着新信息修正错误。第二是“答案膨胀”。多轮对话里回复内容比单轮的多了20%到300%,内容越长越可能有幻觉和猜测。这些内容被纳入了后续的上下文里影响推理准确性。让人意外的是有思考词元的新一代推理模型像o3和DeepSeek R1也没多大改善效果。把温度参数设为0本来是用来保证一致性的,但这回几乎没啥用。这对当前评估方式提出了质疑。大家主要测单轮场景忽略了现实世界的情况。对于用AI做复杂对话的开发者来说这是个大挑战。最好的办法反而是减少来回交流,把所有信息一次性在完整提示里给出来提高输出一致性。