中科院多机构提出解耦式训练新方法，为大模型“自信失真”校准提供路径

近年来，大模型在推理、问答与辅助决策等场景加速落地，但“答错仍自信”的现象引发学界与产业界关注。该现象在技术上被概括为校准退化：模型给出的置信度与真实正确率不匹配，常见表现是即便面对不确定或未知任务，也用确定语气给出结论。研究人员指出，这种“过度自信”不只是表达风格问题，更可能影响用户判断与风险处置，带来系统性隐患。一是问题：错误答案被“高置信度”包装，关键场景风险被放大。研究团队认为，在日常检索与写作场景中，过度自信主要造成信息误导；而在医疗诊疗辅助、法律咨询、金融风控、网络安全研判等高风险应用中，置信度往往被用户当作可靠性信号。一旦模型“把不确定当确定”，错误决策更容易被连续触发，后果可能难以挽回。因此，提升模型“知道自己是否可靠”的能力，正成为推理能力提升之外的另一条关键技术主线。二是原因：强化学习提升推理的同时，容易形成“把概率押在一个答案上”的倾向。当前不少推理型模型采用可验证奖励强化学习等训练范式：对可判定对错的任务（如数学题、逻辑题、代码题）给予奖励信号，引导模型产出更高正确率的推理轨迹。研究指出，在追求高奖励的过程中，模型会倾向将概率质量更集中地分配给单一路径或单一答案，从输出上呈现更强的确定性。换言之，在“为了答对而更果断”的训练压力下，模型容易把“果断”泛化为“自信”，即便面对陌生题型或信息缺失，置信度也可能被系统性抬高。更关键的是，研究更给出数学层面的解释：准确性目标与校准性目标在优化过程中存在“梯度冲突”。当训练同时要求模型“更可能答对”与“更真实表达不确定性”时，两类目标在参数更新方向上会相互牵制，导致常见做法往往陷入两难——要么校准改善但准确率受损，要么准确率提升但过度自信加剧。该结论为长期以来“难以兼顾推理与校准”的现象提供了可检验的理论依据。三是影响：校准能力成为模型可信使用的“门槛指标”。在应用侧，置信度不仅影响用户是否采纳答案，也影响系统的级联策略，例如是否触发人工复核、是否调用外部工具、是否执行高风险操作等。校准退化会削弱这些安全机制：当模型把低可靠结果标成高置信度，系统更可能放行错误；反之若把高可靠结果标成低置信度，则会带来效率下降与资源浪费。研究认为，在保持推理准确性的同时提升校准水平，对推动大模型从“能用”走向“可信可控”具有现实意义。四是对策：提出DCPO，解耦“推理能力”与“置信评估能力”的训练路径。针对梯度冲突，研究团队提出解耦校准策略优化（DCPO）方法，核心思路是将“产生答案的推理策略”与“评估答案可靠性的置信预测”分开优化：推理部分仍以正确性为主目标，提升解题与推断能力；置信部分则专注学习让置信度与真实正确率对齐，从机制上减少相互牵制。训练过程中，模型在给出答案的同时需要明确输出自我置信程度，使置信度成为可学习、可评价的显式信号，而不是隐藏在文本语气里。为提升置信学习的稳定性，研究还设计了混合监督信号，将单样本层面的对错信息与整体分布层面的表现结合起来，缓解仅用单题对错指导置信度带来的高波动问题，使置信训练更接近“既看个体表现，也看总体规律”的评估方式。五是前景：在不牺牲准确率前提下改进校准，为高风险应用提供更稳的技术路径。研究团队在五个不同难度的数学推理测试集上进行验证，结果显示，采用DCPO训练的模型在保持与传统方法相当的解题准确率的同时，校准性能明显改善。业内人士认为，此方向的价值不止在于优化单项指标，更在于为模型可信部署提供更易工程落地的方案：未来可与工具调用、检索增强、人工审核、风险分级等机制结合，让“模型会不会”与“模型有多确定”共同服务于安全边界的建立。

人工智能的进步不仅是算法能力的提升，也关系到人机协作中的责任与边界。当机器能够清楚地说出“我不确定”，才更接近可控与可信。这项研究为可信人工智能提供了新的思路，也为有关治理与落地提供了可参考的技术路径。面向未来，如何在保持模型能力的同时，让其在关键场景更审慎可靠，仍是学界与产业界需要持续攻关的方向。