具身智能技术路线加速分化：世界模型更被看好成“主流”，VLA或走向融合升级

当前机器人领域正面临核心技术路线的战略抉择。传统VLA（视觉-语言-行动）模型可以完成基础行为模仿，但对物理世界的结构化理解不足，泛化能力很快触顶。宇树科技等企业的研发数据显示——在复杂场景决策任务中——VLA模型的失误率仍比人类操作高出40%以上。

具身智能的竞争，本质上是“理解世界”的能力竞争。世界模型的走热，说明行业正从追求短期可用转向构建更可扩展的技术底座；VLA的价值也提示人们，任何“理解”最终都要落到可控、可靠的执行闭环上。未来一段时间，更可能出现的是两者在协同中融合、在融合中迭代：谁能率先打通从认知、推演到执行的全链路，并在真实场景中验证稳定性与安全性，谁就更可能赢得具身智能规模化应用的先机。