清华团队搞出了个叫jaeger的新东西,专门把ai从只看得懂二维图像的怪圈里拉出来,让它

清华大学团队搞出了个叫JAEGER的新东西,专门把AI从只看得懂二维图像的怪圈里拉出来,让它能像咱们人一样感知周围的三维世界。想想看,咱们在客厅听着厨房水开了,不光知道是水响,还能马上扭头看见锅里的水是不是要溢出来了。这种本事现在可是AI领域的大难题呢。有好多学校和机构一起凑了个队,最近就在这个问题上找到了突破口。 以前的那些模型其实挺笨的,就像有个近视眼被困在画里看东西一样,只能处理那些平面的照片或者单调的声音。研究人员专门做了实验对比发现,这些系统在判断物体位置这类题目里的准确率连45%都不到,这跟瞎猜其实也没差多少。这种因为维度不够导致的问题,就好比让一个只能看平片的人去猜哪儿深哪儿浅。 为了克服这个难关,JAEGER搞了个新架构。它既看也听:“立体视觉”用的是那种能看到RGB颜色和D深度数据的摄像头,“立体听觉”则用了四个麦克风围成的一圈阵。这套组合拳让AI终于有了那种像咱们一样的空间脑子。最核心的还是神经强度向量算法,这个算法模仿了人脑处理信息的方式,就算周围吵得不行它也能很准地找到声音源头。 测试数据挺漂亮的:单个人发出的声音位置误差不超过2.21度;多个声音混在一起时也没超过13.13度;看东西的坐标更是差不到16厘米,跟人差不多聪明了。 研究团队还专门做了个叫SpatialSceneQA的题库,里面有6.1万个关于空间的题目,比如问你哪个音箱在响。在这个题库里一考,JAEGER拿了99.2%的高分,能回答那种“男声是从哪个音箱出来的”这种跨模态问题。这种设计把系统从头到尾都打通了,不像以前那种分模块做得乱七八糟还容易出错。 这种技术好用的地方可多了:以后智能音箱就能听懂你说的“把客厅灯调亮一点”;自动驾驶也能更清楚地看见路上有没有大石头挡道;玩VR的时候也能觉得更身临其境了。 不过团队也说了现在还是有难处的:实验室里是比较干净安静的环境;到了外面真世界里太阳晃眼、人说话吵吵根本没法控制。另外深度摄像头和多麦克风这些东西都挺贵的;但好在随着这些硬件的价格降下来了;大家以后就能用得起啦。 总之这是AI从只能看平面图片向能理解空间环境转变的一个重要标志;论文已经在Xiv上发出来了(编号arXiv:2602.18527v1);欢迎大家去研究参考看看这技术到底行不行!