从“所见即所动”到可用可控：视觉—语言—动作模型加速具身智能落地，仍需补齐数据与推理短板

近年来，具身智能热度持续上升，被业内认为是智能驾驶之后值得关注的重要技术与产业方向。在涉及的论坛和产业会议上，多家企业与研究团队展示了从视觉语言模型走向“可行动智能”的探索。其中，视觉语言动作模型（VLA）因能够将多模态感知直接映射到动作控制，被视为推动机器人从“能看会说”走向“会做能用”的关键技术之一。

具身智能的发展历程说明了技术从实验室走向产业的典型路径——在理想与现实的反复验证中不断校准方向。当机器逐步具备“眼脑手”协同能力，人类不仅要解决技术落地的难题，也需要更早思考智能体与物理世界交互所带来的伦理与规则问题。这场由技术突破引发的变革，或将重新划定生产力与生产关系的边界。