新加坡国立大学搞了个新动作，叫nolan，专门解决ai 视觉描述里的“幻觉”问题

最近，新加坡国立大学跟北京大学深圳研究生院的团队搞了个新动作，叫NoLan，专门来解决AI视觉描述里的“幻觉”问题。大家都知道，以前AI在处理图片和文字的时候，老会自己编一些图片里压根没有的东西，这个毛病可太让人头疼了。哪怕是稍微好点的视觉语言模型，像Qwen2-VL或者MathVision，都会经常翻车。这种瞎编乱造不仅让用户体验变差，在像自动驾驶、医疗影像分析这种关乎人命的关键领域里，简直就是颗定时炸弹。这次他们提出的NoLan框架，说白了就是给AI加了个双重验证的机制。它会先让AI给同一个问题生成两个回答，一个是结合图片信息的，另一个是只看文字模板的。然后通过比较这两个答案的相似度，系统就能自动识别出是不是在胡编乱造。这个设计挺巧妙的，它直接利用了模型内部的工作原理，根本不需要重新训练模型就能用。具体来说呢，他们还搞了个基础版和增强版。基础版是用固定的数值来控制干预力度；而增强版就更聪明了，它能根据KL散度这种数学指标来实时调整干预的强度。效果真的挺猛的。拿POPE测试集的数据来说事儿，增强版让主流模型的准确率提高了差不多8.38个百分点，F1分数也提升了8.78个百分点。更绝的是，这种改进一点都没影响回答的流畅性和丰富性。举个最接地气的例子吧：以前让AI描述白雪公主和七个小矮人那幅画的时候，它非要加上“手提箱”、“卡车”这些乱七八糟的东西；现在用了NoLan以后，系统直接把这些不存在的元素给删掉了。不过研究团队发现了一个有趣的现象：幻觉这种错误在写长回答的时候特别容易出现。系统经常在回答到后半部分的时候就开始脱离视觉输入了。好在这个技术在实际应用中的效果很明显。它不仅能解决简单的物体识别问题，连像MathVision里的数学推理任务都能搞定。最关键的是这个技术成本不高。相比那些需要重新训练模型的老法子，NoLan的计算开销只增加了大概15%，内存占用几乎没变。而且随着模型规模变大（比如Qwen2-VL），它的效果反而变得更好了。为了方便大家用起来，研究团队已经把技术细节和代码都公开了，很快就能在GitHub上看到。数学上也分析得很透彻：通过条件互信息这些指标来量化分析发现，KL散度跟幻觉发生率之间有很强的关系。这就相当于给咱们指明了方向：以后要是想进一步优化技术，就得盯着这个指标来调整。从资源消耗的角度看也很划算。NoLan在保持高效运作的同时还降低了系统的不确定性，让回答的置信度平均提升了27%。跟那些用注意力机制调整的方法比起来简直是降维打击。不管是普通用户还是搞开发的开发者都能受益。对于普通用户来说，未来你让AI助手描述图片或者回答视觉问题时肯定会更靠谱；对于开发者来说，这就相当于拿到了一个即插即用的优化工具包。最后他们把论文上传到了arXiv平台上（这个平台专门放预印本论文），代码也很快要在GitHub上发布了。这次的NoLan不仅是解决了一个小毛病这么简单，它直接为解决AI幻觉问题提供了一种全新的思路和范式。