20亿、30亿还有70亿,这些数字背后,是苹果团队给密集图像描述生成这个技术带来了一次不小的突破

20亿、30亿还有70亿,这些数字背后,是苹果团队给密集图像描述生成这个技术带来了一次不小的突破。在CNMO看到的这项研究里,苹果的研究人员们开发出了一种新方法,让小体量的模型也能把图像里的每个细节都精准地描绘出来。威斯康星大学麦迪逊分校的同事们也加入进来,跟他们一起搭起了一个全新的框架。这个框架在多个基准测试里都拿到了第一。 所谓密集图像描述生成,说白了就是要把画面里每一个角落、每一个元素都讲清楚,不再是那种模棱两可的大概描述。这对提升搜索功能或者辅助工具的效果很有帮助。不过,想把这种精细的活儿干好,光靠现在的AI技术可有点费劲。标注高质量的专业数据成本太高,用强大的视觉语言模型生成的合成描述虽然多,但选出来的选项太少太死板。至于强化学习那种方式,虽然能解决多样性的问题,但是在开放式的描述里很难用得上。 为了克服这些困难,研究团队想出了个新招。他们从PixMoCap和DenseFusion-4V-100K这两个数据集中随手挑了5万张图片,用Gemini 2.5 Pro还有GPT-5这些现成的模型,给每张图片都弄出几个候选的说法。接着,他们让还在训练中的RubiCap模型自己也凑个热闹,生成一份自己的描述。 这时候轮到Gemini 2.5 Pro出马了。它负责分析画面、候选描述还有模型自己的输出,弄清楚什么才是评判好坏的标准。最后由Qwen2.5-7B-Instruct按照这个标准打分,把奖励信号反馈给RubiCap让它学习。 就这样一路学下来,研究团队终于做出了RubiCap-2B、RubiCap-3B和RubiCap-7B这三个模型。它们的参数分别是20亿、30亿和70亿。跟那些老方法比起来,这三个小家伙可厉害了。 尤其是那个RubiCap-7B,它直接把那个720亿参数的庞然大物比下去了。在盲测排名里拿了个第一,不仅幻觉少得可怜,准确性也是最高的。更有意思的是30亿参数的小模型在某些测试中居然比更大的模型还强。看来啊,以后搞高质量的密集图像描述生成,可能真的不需要非要有个大体积不可了。