momentaceo曹旭东：把面向未来的重要技术选择交给世界模型

把面向未来的重要技术选择交给世界模型，而不是VLA，这次大众是首个吃螃蟹的车企。这就好比在学校里终于不用亦步亦趋地跟着老师学习，有希望超越老师一样，MomentaCEO曹旭东和团队决定转向强化学习，给AI司机以超越人类司机的希望。既然汽车巨头上汽大众总经理陶海龙亲测后都忍不住给曹旭东打电话，提出要首发上汽大众最新旗舰产品ID.ERA 9X，这款车长超5.2米的全尺寸增程SUV，把德系机械素质和中国AI技术结合得很好，那肯定就把世界模型给用上了。在公开亮相下一代飞轮大模型R7时，曹旭东就透露，公司在探索基于物理世界认知的新路径。这可不是说说而已，他特意花时间介绍了行业过去的技术瓶颈：以前大家普遍用模仿学习范式，像老司机那样亦步亦趋地开车，当然很难超越人类。为了打破这种局面，让AI司机真正有潜力大幅超越人，Momenta推出了基于强化学习的R6。R6能在开放环境中自主探索试错，不再是简单模仿轨迹。而眼下Momenta押注的世界模型到底是什么呢？简单来说有两类：一种是作为“云端训练场”，训练端侧算法；另一种是车端真正驱动的算法，负责理解物理世界并进行推理。行业目前对这两条路线还存在争议，曹旭东所在的阵营押注的就是后一种。至于为什么选择世界模型而不是VLA？曹旭东从直觉和技术两个角度解释了理由。从直觉看，尽管LLM现在能写代码、写诗、解数学题，但这对开车没啥实质性帮助。开车主要还是得理解物理规律及时反应。只有世界模型具备这样的能力。从技术角度看，VLA的训练侧重点有偏差。它起源于大模型LLM，底座模型参数量一般在100B左右，然后通过视觉和语言对齐。这过程中语义优先级高于驾驶。那在底层硬件上还有啥说法吗？虽然此前有纯视觉和多传感器冗余之争，但曹旭东认为那已经是过去式了。传感器选型的重要性只能排在第三梯队。前两位是算法架构、数据和体系能力。因为数据是AI迭代的基石；算法架构能把多个算法整合形成合力；而研发体系能力要像神经网络一样反向传播价值任务。曹旭东进一步透露了内部排序：数据、架构和体系能力是最重要的事情；紧随其后的是芯片算力；而传感器只能排在第三梯队。因为纯视觉已经足够覆盖360°环视了。所以哪怕只用摄像头也足够冗余。随着其他要素提升，堆激光雷达的边际效应会减弱。这也是大家的共识。