中科院多机构提出解耦式训练新方法,为大模型“自信失真”校准提供路径

近年来,大模型在推理、问答与辅助决策等场景加速落地,但“答错仍自信”的现象引发学界与产业界关注。该现象在技术上被概括为校准退化:模型给出的置信度与真实正确率不匹配,常见表现是即便面对不确定或未知任务,也用确定语气给出结论。研究人员指出,这种“过度自信”不只是表达风格问题,更可能影响用户判断与风险处置,带来系统性隐患。 一是问题:错误答案被“高置信度”包装,关键场景风险被放大。研究团队认为,在日常检索与写作场景中,过度自信主要造成信息误导;而在医疗诊疗辅助、法律咨询、金融风控、网络安全研判等高风险应用中,置信度往往被用户当作可靠性信号。一旦模型“把不确定当确定”,错误决策更容易被连续触发,后果可能难以挽回。因此,提升模型“知道自己是否可靠”的能力,正成为推理能力提升之外的另一条关键技术主线。 二是原因:强化学习提升推理的同时,容易形成“把概率押在一个答案上”的倾向。当前不少推理型模型采用可验证奖励强化学习等训练范式:对可判定对错的任务(如数学题、逻辑题、代码题)给予奖励信号,引导模型产出更高正确率的推理轨迹。研究指出,在追求高奖励的过程中,模型会倾向将概率质量更集中地分配给单一路径或单一答案,从输出上呈现更强的确定性。换言之,在“为了答对而更果断”的训练压力下,模型容易把“果断”泛化为“自信”,即便面对陌生题型或信息缺失,置信度也可能被系统性抬高。 更关键的是,研究更给出数学层面的解释:准确性目标与校准性目标在优化过程中存在“梯度冲突”。当训练同时要求模型“更可能答对”与“更真实表达不确定性”时,两类目标在参数更新方向上会相互牵制,导致常见做法往往陷入两难——要么校准改善但准确率受损,要么准确率提升但过度自信加剧。该结论为长期以来“难以兼顾推理与校准”的现象提供了可检验的理论依据。 三是影响:校准能力成为模型可信使用的“门槛指标”。在应用侧,置信度不仅影响用户是否采纳答案,也影响系统的级联策略,例如是否触发人工复核、是否调用外部工具、是否执行高风险操作等。校准退化会削弱这些安全机制:当模型把低可靠结果标成高置信度,系统更可能放行错误;反之若把高可靠结果标成低置信度,则会带来效率下降与资源浪费。研究认为,在保持推理准确性的同时提升校准水平,对推动大模型从“能用”走向“可信可控”具有现实意义。 四是对策:提出DCPO,解耦“推理能力”与“置信评估能力”的训练路径。针对梯度冲突,研究团队提出解耦校准策略优化(DCPO)方法,核心思路是将“产生答案的推理策略”与“评估答案可靠性的置信预测”分开优化:推理部分仍以正确性为主目标,提升解题与推断能力;置信部分则专注学习让置信度与真实正确率对齐,从机制上减少相互牵制。训练过程中,模型在给出答案的同时需要明确输出自我置信程度,使置信度成为可学习、可评价的显式信号,而不是隐藏在文本语气里。 为提升置信学习的稳定性,研究还设计了混合监督信号,将单样本层面的对错信息与整体分布层面的表现结合起来,缓解仅用单题对错指导置信度带来的高波动问题,使置信训练更接近“既看个体表现,也看总体规律”的评估方式。 五是前景:在不牺牲准确率前提下改进校准,为高风险应用提供更稳的技术路径。研究团队在五个不同难度的数学推理测试集上进行验证,结果显示,采用DCPO训练的模型在保持与传统方法相当的解题准确率的同时,校准性能明显改善。业内人士认为,此方向的价值不止在于优化单项指标,更在于为模型可信部署提供更易工程落地的方案:未来可与工具调用、检索增强、人工审核、风险分级等机制结合,让“模型会不会”与“模型有多确定”共同服务于安全边界的建立。

人工智能的进步不仅是算法能力的提升,也关系到人机协作中的责任与边界。当机器能够清楚地说出“我不确定”,才更接近可控与可信。这项研究为可信人工智能提供了新的思路,也为有关治理与落地提供了可参考的技术路径。面向未来,如何在保持模型能力的同时,让其在关键场景更审慎可靠,仍是学界与产业界需要持续攻关的方向。