我国科研团队突破智能体系统关键技术第二代"具身大小脑"实现模态精准协同

问题——具身智能从实验室走向真实环境，核心挑战之一在于“能说会想”与“能做会控”的衔接。

业内普遍采用的视觉—语言—动作（VLA）范式，虽然在多模态理解与指令跟随方面进展较快，但在真机执行环节仍面临两类突出难题：一是语义推理与动作控制的模态对齐不足，导致模型在理解任务目标后，难以稳定映射为可执行、可复现的动作序列；二是动作表示受离散化与编码方式限制，出现精度损失与误差累积，影响抓取、移动、装配等细粒度操作的成功率与一致性。

原因——上述难题的形成既有技术路径的内在约束，也与应用环境复杂性相关。

从技术层面看，传统做法常将“理解/推理”与“控制/执行”分段建模，或在训练阶段采取不同的表示体系，使得语义空间与动作空间之间存在结构性鸿沟；此外，动作离散化通常依赖固定的Tokenizer或码本，面对连续控制的高维、强约束特性时，容易出现表达能力不足与精度上限。

与此同时，真实场景受光照变化、物体材质差异、传感噪声、末端执行器误差等因素影响，单纯在仿真或静态数据上取得的指标优势，往往难以直接转化为跨设备、跨任务的稳定表现。

影响——模态对齐与动作精度问题，直接决定具身系统的可用性与推广成本。

对企业应用而言，若模型需要在不同机器人本体上反复调参、重训练，部署周期和维护费用将明显上升；对行业生态而言，缺乏可复现、可量化的真机评测标准，也会导致技术路线难以横向比较，进而影响产业投入的效率。

更重要的是，当具身系统承担仓储分拣、巡检运维、服务协作等任务时，推理与执行的不一致不仅意味着效率下降，也可能带来安全与可靠性风险。

因此，围绕“推理是否真正促进执行、如何用统一指标衡量提升幅度”，建立更贴近真实操作链路的评测与训练方法，正成为该领域的关键方向。

对策——针对VLA模型在语义推理与动作控制上的对齐难题，智元具身研究中心此次推出第二代一体化具身“大小脑”系统GenieReasoner，提出支持统一离散化预训练的模型架构，力图在同一训练框架内打通推理与控制链路。

在动作精度方面，引入流匹配（Flow-matching）方法，以缓解传统离散Tokenizer在动作表达上的精度瓶颈，提升动作生成的细致度与可控性。

与此同时，研究中心开源ERIQ评测基准，聚焦真机操控全流程，强调对具身推理能力进行解耦量化评估，帮助回答“模型到底在哪一类推理能力上更强、这种更强是否能转化为端到端执行提升”等关键问题。

相关实验结果显示，系统在推理能力和跨本体真机实验的泛化性方面均取得领先表现；对比实验亦表明，更强的具身推理能力能够显著改善端到端动作执行效果，从而在一定程度上验证了评测基准的区分度与实际价值。

前景——从发展趋势看，具身智能正从“单点能力突破”迈向“闭环协同提升”。

一方面，面向更复杂任务，模型需要更强的逻辑深度与可解释的决策链条，以应对多目标约束、长时序规划与异常情况处理；另一方面，落到真机执行，执行精度、鲁棒性与安全性仍是决定能否规模化落地的硬指标。

智元方面表示，后续将围绕“逻辑深度”和“执行精度”持续推进，并探索具身“大小脑”、世界模型与真机强化学习的闭环协同路径。

业内认为，若开源评测基准能够形成更广泛共识，并与真实场景数据、标准化测试流程相结合，将有望推动具身智能从“看得懂、说得出”进一步走向“做得稳、迁移快”，加速在制造、物流、家庭服务等领域的试点与应用迭代。

具身智能代表着机器人技术从"工具"向"伙伴"演进的重要方向。

此次智元发布的第二代系统及开源评测基准，不仅是一次技术能力的集中展示，更体现了中国科研机构以开放姿态推动行业共同进步的担当。

随着核心技术瓶颈逐步突破，具身智能有望在工业制造、医疗康养、家庭服务等领域释放更大价值，为经济社会发展注入新动能。

我国科研团队突破智能体系统关键技术 第二代"具身大小脑"实现模态精准协同

我国科研团队突破智能体系统关键技术第二代"具身大小脑"实现模态精准协同