商汤sensenova-si-1.3 空间智能模型

咱们来聊聊商汤最近的动静,这个团队在6号发布了最新的空间智能模型叫SenseNova-SI-1.3。这东西在空间测量和综合推理这些事儿上,能力确实猛涨,特别是做简答题,感觉比以前更利索了。在那个EASI的综合平台上一测,总分直接把Gemini-3-Pro给比下去了,拿了EASI-8的第一名。 那个EASI-8其实就是把八大权威榜单混在一起的大考,专门卡那些空间理解的难关。像什么统计建筑模型数量、判断书房里电脑的方位、还有根据视角判断人在左边还是右边,这些刁钻的问题都考出来了。结果发现,不管是哪种大模型都容易翻车,只有SenseNova-SI-1.3稳得住。有一题是要算两张图里的建筑个数,得看清楚两张图是怎么对应的才能不漏数。还有一道书房的题,问电脑在北边,写作业的地方是在哪边?原来的模型都答错了在西边,SenseNova-1.3精准算出是在西北角。还有一道关于戴眼镜和不戴眼镜的题,模型要是用错了视角就容易错选右边。 再来说说为什么这门本事这么难练。今年ICML上的一篇论文分析得很透:视角转换这事儿跟传统多模态能力的关系特别低,主流的路子走不通。论文还发现了一个很有意思的现象:模型越大不一定就越能搞定空间问题。 以前学术界搞的数据集大多盯着识别和场景理解,导致模型总是死抠图像怎么匹配,根本形成不了真正的空间思维。商汤团队为了解决这个硬骨头,就把视角转换当成了从二维图像到三维空间的桥梁。他们把这个能力拆成好几步来练,还专门整理了很多层次分明的训练数据。而且他们还把以前没用好的多视角数据也拿出来重新利用了一遍,这样积累的经验就更丰富了。 有意思的是在研究中他们好像发现了一些智能涌现的苗头:不同的任务好像有某种底层联系能互相促进。比如在视角转换上练的模型,对心智重建这类能力也有帮助。 这次SenseNova-SI-1.3的发布就是为了打破技术壁垒,让大家都能用得上顶尖的空间智能技术。对于搞科研的人来说,它给了一个现成的强力预训练模型和基线。这个基线和大家现用的基座模型兼容得挺好,正好能直接在上面搞新算法或者接着练。总之就是为了推动空间智能朝着人类的水平走。