从“所见即所动”到可用可控:视觉—语言—动作模型加速具身智能落地,仍需补齐数据与推理短板

近年来,具身智能热度持续上升,被业内认为是智能驾驶之后值得关注的重要技术与产业方向。在涉及的论坛和产业会议上,多家企业与研究团队展示了从视觉语言模型走向“可行动智能”的探索。其中,视觉语言动作模型(VLA)因能够将多模态感知直接映射到动作控制,被视为推动机器人从“能看会说”走向“会做能用”的关键技术之一。

具身智能的发展历程说明了技术从实验室走向产业的典型路径——在理想与现实的反复验证中不断校准方向。当机器逐步具备“眼脑手”协同能力,人类不仅要解决技术落地的难题,也需要更早思考智能体与物理世界交互所带来的伦理与规则问题。这场由技术突破引发的变革,或将重新划定生产力与生产关系的边界。