我国科研团队突破智能体系统关键技术 第二代"具身大小脑"实现模态精准协同

问题——具身智能从实验室走向真实环境,核心挑战之一在于“能说会想”与“能做会控”的衔接。

业内普遍采用的视觉—语言—动作(VLA)范式,虽然在多模态理解与指令跟随方面进展较快,但在真机执行环节仍面临两类突出难题:一是语义推理与动作控制的模态对齐不足,导致模型在理解任务目标后,难以稳定映射为可执行、可复现的动作序列;二是动作表示受离散化与编码方式限制,出现精度损失与误差累积,影响抓取、移动、装配等细粒度操作的成功率与一致性。

原因——上述难题的形成既有技术路径的内在约束,也与应用环境复杂性相关。

从技术层面看,传统做法常将“理解/推理”与“控制/执行”分段建模,或在训练阶段采取不同的表示体系,使得语义空间与动作空间之间存在结构性鸿沟;此外,动作离散化通常依赖固定的Tokenizer或码本,面对连续控制的高维、强约束特性时,容易出现表达能力不足与精度上限。

与此同时,真实场景受光照变化、物体材质差异、传感噪声、末端执行器误差等因素影响,单纯在仿真或静态数据上取得的指标优势,往往难以直接转化为跨设备、跨任务的稳定表现。

影响——模态对齐与动作精度问题,直接决定具身系统的可用性与推广成本。

对企业应用而言,若模型需要在不同机器人本体上反复调参、重训练,部署周期和维护费用将明显上升;对行业生态而言,缺乏可复现、可量化的真机评测标准,也会导致技术路线难以横向比较,进而影响产业投入的效率。

更重要的是,当具身系统承担仓储分拣、巡检运维、服务协作等任务时,推理与执行的不一致不仅意味着效率下降,也可能带来安全与可靠性风险。

因此,围绕“推理是否真正促进执行、如何用统一指标衡量提升幅度”,建立更贴近真实操作链路的评测与训练方法,正成为该领域的关键方向。

对策——针对VLA模型在语义推理与动作控制上的对齐难题,智元具身研究中心此次推出第二代一体化具身“大小脑”系统GenieReasoner,提出支持统一离散化预训练的模型架构,力图在同一训练框架内打通推理与控制链路。

在动作精度方面,引入流匹配(Flow-matching)方法,以缓解传统离散Tokenizer在动作表达上的精度瓶颈,提升动作生成的细致度与可控性。

与此同时,研究中心开源ERIQ评测基准,聚焦真机操控全流程,强调对具身推理能力进行解耦量化评估,帮助回答“模型到底在哪一类推理能力上更强、这种更强是否能转化为端到端执行提升”等关键问题。

相关实验结果显示,系统在推理能力和跨本体真机实验的泛化性方面均取得领先表现;对比实验亦表明,更强的具身推理能力能够显著改善端到端动作执行效果,从而在一定程度上验证了评测基准的区分度与实际价值。

前景——从发展趋势看,具身智能正从“单点能力突破”迈向“闭环协同提升”。

一方面,面向更复杂任务,模型需要更强的逻辑深度与可解释的决策链条,以应对多目标约束、长时序规划与异常情况处理;另一方面,落到真机执行,执行精度、鲁棒性与安全性仍是决定能否规模化落地的硬指标。

智元方面表示,后续将围绕“逻辑深度”和“执行精度”持续推进,并探索具身“大小脑”、世界模型与真机强化学习的闭环协同路径。

业内认为,若开源评测基准能够形成更广泛共识,并与真实场景数据、标准化测试流程相结合,将有望推动具身智能从“看得懂、说得出”进一步走向“做得稳、迁移快”,加速在制造、物流、家庭服务等领域的试点与应用迭代。

具身智能代表着机器人技术从"工具"向"伙伴"演进的重要方向。

此次智元发布的第二代系统及开源评测基准,不仅是一次技术能力的集中展示,更体现了中国科研机构以开放姿态推动行业共同进步的担当。

随着核心技术瓶颈逐步突破,具身智能有望在工业制造、医疗康养、家庭服务等领域释放更大价值,为经济社会发展注入新动能。