20亿、30亿还有70亿，这些数字背后，是苹果团队给密集图像描述生成这个技术带来了一次不小的突破

20亿、30亿还有70亿，这些数字背后，是苹果团队给密集图像描述生成这个技术带来了一次不小的突破。在CNMO看到的这项研究里，苹果的研究人员们开发出了一种新方法，让小体量的模型也能把图像里的每个细节都精准地描绘出来。威斯康星大学麦迪逊分校的同事们也加入进来，跟他们一起搭起了一个全新的框架。这个框架在多个基准测试里都拿到了第一。所谓密集图像描述生成，说白了就是要把画面里每一个角落、每一个元素都讲清楚，不再是那种模棱两可的大概描述。这对提升搜索功能或者辅助工具的效果很有帮助。不过，想把这种精细的活儿干好，光靠现在的AI技术可有点费劲。标注高质量的专业数据成本太高，用强大的视觉语言模型生成的合成描述虽然多，但选出来的选项太少太死板。至于强化学习那种方式，虽然能解决多样性的问题，但是在开放式的描述里很难用得上。为了克服这些困难，研究团队想出了个新招。他们从PixMoCap和DenseFusion-4V-100K这两个数据集中随手挑了5万张图片，用Gemini 2.5 Pro还有GPT-5这些现成的模型，给每张图片都弄出几个候选的说法。接着，他们让还在训练中的RubiCap模型自己也凑个热闹，生成一份自己的描述。这时候轮到Gemini 2.5 Pro出马了。它负责分析画面、候选描述还有模型自己的输出，弄清楚什么才是评判好坏的标准。最后由Qwen2.5-7B-Instruct按照这个标准打分，把奖励信号反馈给RubiCap让它学习。就这样一路学下来，研究团队终于做出了RubiCap-2B、RubiCap-3B和RubiCap-7B这三个模型。它们的参数分别是20亿、30亿和70亿。跟那些老方法比起来，这三个小家伙可厉害了。尤其是那个RubiCap-7B，它直接把那个720亿参数的庞然大物比下去了。在盲测排名里拿了个第一，不仅幻觉少得可怜，准确性也是最高的。更有意思的是30亿参数的小模型在某些测试中居然比更大的模型还强。看来啊，以后搞高质量的密集图像描述生成，可能真的不需要非要有个大体积不可了。