ai的幻觉率降低了58% ,这下子不仅在回答流畅的同时减少了犯错的概率,就连干预成本也给压

好消息是Goodfire团队通过把模型内部学到的“信念”作为奖励,成功把AI的幻觉率给降低了58%。这下子不仅在回答流畅的同时减少了犯错的概率,就连干预成本也给压下来约90倍。虽然聊天机器人平时反应很快,但也难免会偶尔信口开河,这种在医疗和法律场景里让人哭笑不得的现象现在能得到明显改善了。 原来模型会“说谎”,是因为它本质上就是一台下一步预测机,训练目标也不以真假为准绳。所以遇到没见过的话题时,它就会按照概率去编一个看似合理的答案。要解决这个问题,传统的做法是事后去核查外部事实,但这次研究把关注点放在了让模型自己学会纠正不确定的陈述上。 他们提出的RLFR管道就是个新思路:先用探测器去读取模型内部的表征,比如信心度和事实性这些特征;接着把这些特征的读数转化成强化学习里的奖励信号。这样一来模型就能在检测到可能出错时主动撤回或补充信息了。和以前单纯用来做监测的做法不同,这次是直接把这些特征用在训练阶段形成监督信号,成本更低还能控制开放生成的行为。 这种方法之所以可行是因为模型内部确实编码了事实性和意图这类抽象概念。把这些概念量化成指标当奖励有三大好处:监督信号密集又自动化,不用每次都靠人工标注;计算开销很低;测试时结合采样策略还能高效筛选可靠的结果。 具体到Gemma-3-12B-IT这个模型上,数据显示幻觉率确实降低了58%。模型变得更谨慎了,“看起来合理但不准确”的输出大幅减少了。而且这种奖励来自模型自身内部特征,所以在计算资源和人工成本上都有明显优势,特别适合那些想规模化部署的公司。 虽然方向很鼓舞人心,但目前探测器还可能有偏差误判奖励信号。未来需要改进探测技术和校准方法来降低系统性偏差。 对咱们普通用户来说意义重大:智能客服和学习辅导助手少出错一半意味着更高的效率和更强的信任感。对于内容平台还有法律医疗这些高风险的应用场景来说,这项技术更是把生成式AI从实验室推向可靠服务的关键一步。 展望未来的话,RLFR代表了一种新的训练范式:利用可解释性中发现的内部信号来塑造模型的行为。下一步除了改进探测技术外还能把这一范式推广到更多任务上去控制礼貌性或偏向性等能力。 总之这次研究为可信化生成式AI提供了有力工具。它告诉我们与其在外部无休止地追查“事实”,不如让模型学会理解并修正自己的不确定。未来的智能助理或许不会忸怩作态但会更谦逊核验一点这对我们的日常使用和产业化落地都意味着更可靠的体验。