这阵子我看大家都在给AI教开车,这事儿还得慢点来。先别急着按按钮让它动,得让它先把这个世界看懂才行。你看现在的车是越来越聪明了,功能也挺多,但有时候开起来还是让人心里发毛。其实呢,车子今天能不能卖掉主要看功能多不多,以后能不能变强还得看架构到底行不行。 行内现在都在讲什么端到端的方案、VLM和VLA这些新架构。按理说系统上限应该提高了吧?可真正面对复杂的路况时,系统还不是一样磕磕绊绊。说白了,考验的不是有没有这项功能,而是识别、判断和动作能不能连贯起来。功能可以一项项加,但只要系统总是在那儿晃悠不稳,这毛病就没法根治。 说起这事我就想起小时候学自行车了。那时候不是靠记动作学的,是慢慢把平衡这种感觉给摸透了。MindVLA-o1就是理想对这个问题给出的答案,它的核心就是要让AI真正学会“看懂世界”。 你想啊,物理世界到底该怎么理解?很多复杂的驾驶场景难点根本不在于是不是看见东西了,而是能不能搞懂三维空间里的关系。以前视觉训练老是在二维上打转,虽然能认出是个啥物体,但搞不清它在空间里到底在哪儿飘着。 理想搞了个3DViT来解决这个问题。这不光是为了让系统知道是什么东西这么简单,更要搞清楚它在三维世界里的具体位置。要是连六岁前该懂的空间都理解不了,这就好比底座没打好,车身肯定是要摇晃的。 光看懂空间还不够,还要面对现实中一直变来变去的环境。驾驶不仅仅是反应快那么简单,理想这次强调多模态思考的能力。在语言模型的基础上引入了预测式隐世界模型,好去推演未来可能出现的变化情况。 系统得学会“慢思考”又要有“快反应”,MindVLA-o1就把这两种能力给统一了起来。以前那种分模块的系统信息传递损耗太大了,局部看着都挺好连起来就乱套了。现在把感知、推理和控制全都放进同一套架构里了,效率自然就上去了。 还有一个问题就是学习的速度得跟上。长尾场景时不时就冒出来一个新花样,光靠人类的数据肯定是不够的。理想自己开发了一套统一渲染引擎和分布式训练框架来提升速度并降低成本。 光有想法还不行,得把它落到实处。模型越大部署起来就越费劲,理想这次找到了一个算力和效果之间的最佳平衡点——帕累托前沿。通过软硬件协同设计的方式推动系统在仿真环境中更快迭代。 你看现在开车的时候有没有觉得系统有时候有点“迟钝”?以后量产智驾最难的点不在于单项能力强不强,而在于这些能力能不能被系统稳稳当当地调用起来。有人想守住安全边界有人想搞大数据量迭代。理想的路子是先补物理世界的理解这块短板,再把预判、推理和控制这一套逻辑给收进来。 这套“驾驶大脑”的能力框架能不能在量产车上稳稳当当跑起来?MindVLA-o1现在是为智驾服务的起点,但它真正想做的是一套面向物理世界的统一智能基座这才是星辰大海呢。自动驾驶其实就是个入口点而已。 现在大家在功能这块已经卷得差不多了(上限快到了),接下来架构的竞争才是关键啊。你觉得AI到底要多久才能真正把这个世界看懂?别急着教它开车的事儿了。