具身智能技术路线加速分化:世界模型更被看好成“主流”,VLA或走向融合升级

当前机器人领域正面临核心技术路线的战略抉择。传统VLA(视觉-语言-行动)模型可以完成基础行为模仿,但对物理世界的结构化理解不足,泛化能力很快触顶。宇树科技等企业的研发数据显示——在复杂场景决策任务中——VLA模型的失误率仍比人类操作高出40%以上。

具身智能的竞争,本质上是“理解世界”的能力竞争。世界模型的走热,说明行业正从追求短期可用转向构建更可扩展的技术底座;VLA的价值也提示人们,任何“理解”最终都要落到可控、可靠的执行闭环上。未来一段时间,更可能出现的是两者在协同中融合、在融合中迭代:谁能率先打通从认知、推演到执行的全链路,并在真实场景中验证稳定性与安全性,谁就更可能赢得具身智能规模化应用的先机。