商汤sensenova-si-1.3 空间智能模型

咱们来聊聊商汤最近的动静，这个团队在6号发布了最新的空间智能模型叫SenseNova-SI-1.3。这东西在空间测量和综合推理这些事儿上，能力确实猛涨，特别是做简答题，感觉比以前更利索了。在那个EASI的综合平台上一测，总分直接把Gemini-3-Pro给比下去了，拿了EASI-8的第一名。那个EASI-8其实就是把八大权威榜单混在一起的大考，专门卡那些空间理解的难关。像什么统计建筑模型数量、判断书房里电脑的方位、还有根据视角判断人在左边还是右边，这些刁钻的问题都考出来了。结果发现，不管是哪种大模型都容易翻车，只有SenseNova-SI-1.3稳得住。有一题是要算两张图里的建筑个数，得看清楚两张图是怎么对应的才能不漏数。还有一道书房的题，问电脑在北边，写作业的地方是在哪边？原来的模型都答错了在西边，SenseNova-1.3精准算出是在西北角。还有一道关于戴眼镜和不戴眼镜的题，模型要是用错了视角就容易错选右边。再来说说为什么这门本事这么难练。今年ICML上的一篇论文分析得很透：视角转换这事儿跟传统多模态能力的关系特别低，主流的路子走不通。论文还发现了一个很有意思的现象：模型越大不一定就越能搞定空间问题。以前学术界搞的数据集大多盯着识别和场景理解，导致模型总是死抠图像怎么匹配，根本形成不了真正的空间思维。商汤团队为了解决这个硬骨头，就把视角转换当成了从二维图像到三维空间的桥梁。他们把这个能力拆成好几步来练，还专门整理了很多层次分明的训练数据。而且他们还把以前没用好的多视角数据也拿出来重新利用了一遍，这样积累的经验就更丰富了。有意思的是在研究中他们好像发现了一些智能涌现的苗头：不同的任务好像有某种底层联系能互相促进。比如在视角转换上练的模型，对心智重建这类能力也有帮助。这次SenseNova-SI-1.3的发布就是为了打破技术壁垒，让大家都能用得上顶尖的空间智能技术。对于搞科研的人来说，它给了一个现成的强力预训练模型和基线。这个基线和大家现用的基座模型兼容得挺好，正好能直接在上面搞新算法或者接着练。总之就是为了推动空间智能朝着人类的水平走。