新加坡国立大学最近搞出了个大新闻,他们研发的NoLan框架终于让AI视觉描述彻底告别了那个充满“幻觉”的时代。你们知道,现在AI处理图片说话的时候老爱瞎编乱造,明明画面上没有的东西,它也能给你编出来,这不仅把用户体验搞砸了,在开车或者看病这些要命的场景里更是埋下了巨大的安全隐患。 新加坡国立大学联合北京大学深圳研究生院的团队这次出了个奇招,把这个顽疾给治住了。以前大家总以为这是因为看图像的那一块有毛病,但现在的实验结果特别反直觉:一旦AI开始胡说八道,它给出的答案跟完全不看图片光靠聊天模型编出来的一模一样。这就好比学生考试不审题,直接拿模板答案往上套。 NoLan这招确实聪明,它在系统想回答问题的时候强制生成两个版本的答案:一个是好好看了图片才说的,另一个是光用语言模型瞎猜的。然后把这两个答案拿来比对,如果发现系统太依赖脑子里面存的那些乱七八糟的模板,马上就给它叫停并纠正过来。这种设计特别省事儿,不用专门去练新模型就能直接用。 技术上他们搞了两个版本,一个用固定的标准管着系统胡说八道,另一个更高级一点,能根据数学上的KL散度这种指标实时算出该管多严。在POPE这个标准考试里看成绩特别明显:增强版把主流模型的准确率最高给拉高了8.38个百分点,F1分数也提升了8.78个百分点。关键是这一改还没把句子写死。 用白雪公主那张图来举例子就很直观了:以前的AI经常会在后面添油加醋地加个手提箱或者卡车出来骗人,现在NoLan修正后的说法就很诚实,全是画面上有的东西。分析发现这种胡说八道在写长句子的时候特别突出,往往写到后面就不看图片了瞎编了。 这个技术真的太有工程价值了。以前的办法得把系统从头再练一遍费大劲,现在只需要多花点时间计算大概15%的开销就行,内存一点都没多占。在Qwen2-VL这些新模型上试了试发现,模型越大这招就越管用。 研究团队直接把细节和代码都开源了摆在GitHub上,方便大家拿去用。通过条件互信息这些数学指标一算就明白,原来系统老是出错跟KL散度这玩意关系特别大。这样的理论突破不仅能解释原理还指明了方向。 资源消耗测试表明NoLan在保持高效率的同时还把系统的不确定性大大降低了,回答的自信度平均提高了27%。跟那种调注意力机制的老法子比起来它有个明显优势:直接在解码阶段动手脚,省去了一大堆复杂的计算步骤。 在MathVision这个数学考试里表现也特别好,代数和几何都考得不错。这说明这技术不光能认人认物还能干复杂的逻辑推理活。 这篇论文现在已经挂在arXiv上了,马上代码就要在GitHub放出来。普通用户以后找AI看图说话就靠谱多了;开发者呢也能直接插上这个工具就用,不用再大改系统就能让性能飙升一大截。