红杉中国xbench和unipatai 团队一起搞了个ai 视觉能力的评测集，目的是要看看这些大模型在

最近有个关于AI视觉能力的评测引起了大家的关注，这是红杉中国旗下的Xbench平台和UniPatAI团队一起搞的。他们搞了个叫BabyVision的评测集，目的是要看看这些大模型在处理纯视觉信息的时候表现怎么样，因为以前很多评测都太依赖语言能力了。这次测试结果挺震撼的，大部分顶尖的多模态模型在核心视觉任务上的得分，竟然比3岁小孩还低好多。唯一有个闭源模型叫Gemini 3 Pro Preview，勉强超过了3岁儿童的平均水平，不过跟6岁儿童比起来，还有20个百分点的差距呢。为了有个清楚的对比标准，他们还找了3岁、6岁、10岁和12岁的小孩来做同样的测试。比如说有个垃圾分类的连线任务，小孩们都能很自然地把图标跟颜色对应的垃圾桶连起来。可是最厉害的那个模型虽然写了一堆解释文字，最后答案还是错的。这说明模型的“推理”根本不是真的懂视觉空间。随着测试题从20道Mini版变成388道Full版，差距变得更大了。那些有本科以上学历的人做准确率高达94.1%，可是表现最好的闭源模型准确率一下子掉到了49.7%。开源模型里面最强的也才22.2%左右，其他的基本都在12%到19%之间晃悠。这个数据明显告诉我们，现在大模型在处理基本视觉任务上还有很大的问题。 UniPatAI团队还指出，这种不足不是个别任务有问题，而是四个方面都不行：精细辨别、视觉追踪、空间感知还有模式识别。这说明基础处理模块可能有系统性的缺失。论文里分析了几个主要难题：第一是细节不够细腻，人类能看到拼图块边缘微小的凸起，可模型把这些都变成了“钩子”、“有两个腿”之类的词语符号（Token），关键的细节就被抹平了。第二是追踪路线时缺乏连贯性，人类能盯着一条路走下去不变方向，模型却把路线切成“左、右、上、下”的指令序列来处理，碰到拐弯就容易搞混。第三是空间想象力不够，人类能在脑子里摆弄三维方块或者转视角看东西，可模型没有这种能力。 BabyVision这个评测集就像个棱镜，照出了AI想变成人类那样聪明得有多难。它提醒我们不能光给语言大模型装个视觉编码器就完事儿了。真正的视觉理解需要能直接处理空间几何之类的非语言信息的原生模块。这个研究不仅能帮我们客观看看模型有多智能，也指出了方向：得从底层的视觉表征、物理规则建模和跨模态对齐这些方面下手才行。只有把这些基础打好了，AI才能在跟真实世界打交道时走得稳当长远。