最近,新加坡国立大学跟北京大学深圳研究生院的团队搞了个新动作,叫NoLan,专门来解决AI视觉描述里的“幻觉”问题。大家都知道,以前AI在处理图片和文字的时候,老会自己编一些图片里压根没有的东西,这个毛病可太让人头疼了。哪怕是稍微好点的视觉语言模型,像Qwen2-VL或者MathVision,都会经常翻车。这种瞎编乱造不仅让用户体验变差,在像自动驾驶、医疗影像分析这种关乎人命的关键领域里,简直就是颗定时炸弹。这次他们提出的NoLan框架,说白了就是给AI加了个双重验证的机制。它会先让AI给同一个问题生成两个回答,一个是结合图片信息的,另一个是只看文字模板的。然后通过比较这两个答案的相似度,系统就能自动识别出是不是在胡编乱造。这个设计挺巧妙的,它直接利用了模型内部的工作原理,根本不需要重新训练模型就能用。具体来说呢,他们还搞了个基础版和增强版。基础版是用固定的数值来控制干预力度;而增强版就更聪明了,它能根据KL散度这种数学指标来实时调整干预的强度。 效果真的挺猛的。拿POPE测试集的数据来说事儿,增强版让主流模型的准确率提高了差不多8.38个百分点,F1分数也提升了8.78个百分点。更绝的是,这种改进一点都没影响回答的流畅性和丰富性。举个最接地气的例子吧:以前让AI描述白雪公主和七个小矮人那幅画的时候,它非要加上“手提箱”、“卡车”这些乱七八糟的东西;现在用了NoLan以后,系统直接把这些不存在的元素给删掉了。 不过研究团队发现了一个有趣的现象:幻觉这种错误在写长回答的时候特别容易出现。系统经常在回答到后半部分的时候就开始脱离视觉输入了。好在这个技术在实际应用中的效果很明显。它不仅能解决简单的物体识别问题,连像MathVision里的数学推理任务都能搞定。 最关键的是这个技术成本不高。相比那些需要重新训练模型的老法子,NoLan的计算开销只增加了大概15%,内存占用几乎没变。而且随着模型规模变大(比如Qwen2-VL),它的效果反而变得更好了。 为了方便大家用起来,研究团队已经把技术细节和代码都公开了,很快就能在GitHub上看到。数学上也分析得很透彻:通过条件互信息这些指标来量化分析发现,KL散度跟幻觉发生率之间有很强的关系。这就相当于给咱们指明了方向:以后要是想进一步优化技术,就得盯着这个指标来调整。 从资源消耗的角度看也很划算。NoLan在保持高效运作的同时还降低了系统的不确定性,让回答的置信度平均提升了27%。跟那些用注意力机制调整的方法比起来简直是降维打击。 不管是普通用户还是搞开发的开发者都能受益。对于普通用户来说,未来你让AI助手描述图片或者回答视觉问题时肯定会更靠谱;对于开发者来说,这就相当于拿到了一个即插即用的优化工具包。 最后他们把论文上传到了arXiv平台上(这个平台专门放预印本论文),代码也很快要在GitHub上发布了。这次的NoLan不仅是解决了一个小毛病这么简单,它直接为解决AI幻觉问题提供了一种全新的思路和范式。