新加坡国立大学搞出了个大新闻，他们研发的nolan 框架终于让ai 视觉描述彻底告别了那个充满“

新加坡国立大学最近搞出了个大新闻，他们研发的NoLan框架终于让AI视觉描述彻底告别了那个充满“幻觉”的时代。你们知道，现在AI处理图片说话的时候老爱瞎编乱造，明明画面上没有的东西，它也能给你编出来，这不仅把用户体验搞砸了，在开车或者看病这些要命的场景里更是埋下了巨大的安全隐患。新加坡国立大学联合北京大学深圳研究生院的团队这次出了个奇招，把这个顽疾给治住了。以前大家总以为这是因为看图像的那一块有毛病，但现在的实验结果特别反直觉：一旦AI开始胡说八道，它给出的答案跟完全不看图片光靠聊天模型编出来的一模一样。这就好比学生考试不审题，直接拿模板答案往上套。 NoLan这招确实聪明，它在系统想回答问题的时候强制生成两个版本的答案：一个是好好看了图片才说的，另一个是光用语言模型瞎猜的。然后把这两个答案拿来比对，如果发现系统太依赖脑子里面存的那些乱七八糟的模板，马上就给它叫停并纠正过来。这种设计特别省事儿，不用专门去练新模型就能直接用。技术上他们搞了两个版本，一个用固定的标准管着系统胡说八道，另一个更高级一点，能根据数学上的KL散度这种指标实时算出该管多严。在POPE这个标准考试里看成绩特别明显：增强版把主流模型的准确率最高给拉高了8.38个百分点，F1分数也提升了8.78个百分点。关键是这一改还没把句子写死。用白雪公主那张图来举例子就很直观了：以前的AI经常会在后面添油加醋地加个手提箱或者卡车出来骗人，现在NoLan修正后的说法就很诚实，全是画面上有的东西。分析发现这种胡说八道在写长句子的时候特别突出，往往写到后面就不看图片了瞎编了。这个技术真的太有工程价值了。以前的办法得把系统从头再练一遍费大劲，现在只需要多花点时间计算大概15%的开销就行，内存一点都没多占。在Qwen2-VL这些新模型上试了试发现，模型越大这招就越管用。研究团队直接把细节和代码都开源了摆在GitHub上，方便大家拿去用。通过条件互信息这些数学指标一算就明白，原来系统老是出错跟KL散度这玩意关系特别大。这样的理论突破不仅能解释原理还指明了方向。资源消耗测试表明NoLan在保持高效率的同时还把系统的不确定性大大降低了，回答的自信度平均提高了27%。跟那种调注意力机制的老法子比起来它有个明显优势：直接在解码阶段动手脚，省去了一大堆复杂的计算步骤。在MathVision这个数学考试里表现也特别好，代数和几何都考得不错。这说明这技术不光能认人认物还能干复杂的逻辑推理活。这篇论文现在已经挂在arXiv上了，马上代码就要在GitHub放出来。普通用户以后找AI看图说话就靠谱多了；开发者呢也能直接插上这个工具就用，不用再大改系统就能让性能飙升一大截。