智元与麦吉尔大学合作推出了mansion 框架,希望为下一代具身智能搭建一个理想的试验场。

智元与清华大学、麦吉尔大学合作,共同推出了MANSION框架,希望为下一代具身智能搭建一个理想的试验场。这个项目的核心目标是让机器人能够跨楼层运送物资、完成配送任务或者是做家务。这些都是未来机器人必须面对的现实挑战。目前,业界的研究大多局限在单层空间,跟真实世界的需求有很大的差距。为了让这个框架能真正落地,智元团队给它配备了从语言到3D建筑的端到端生成能力。这个新框架结合了多模态大模型和几何求解器,确保生成的楼房里有楼梯、电梯还有各种跨层结构,让整栋建筑连贯可用。 基于这个框架,他们还发布了MansionWorld数据集,里面包含了1000多栋房子,有2到10层不等,覆盖了住宅、办公、医院这些全场景。这个数据集还能导出到Blender或者NVIDIA Isaac Sim这些工具上,方便全球的研究者使用。为了让机器人真的能在里面“跑起来”,智元团队升级了AI2-THOR模拟器,加入了楼梯、电梯这些资产。他们还推出了高级原子技能API,让机器人能够在楼层间无缝切换、精准落位,轻松搞定跨楼层的取物和运送任务。为了提高研究效率,他们还设计了任务语义场景编辑智能体,能根据指令快速调整环境。 当任务变得复杂起来的时候,现有的机器人往往表现得不太好。MANSION的价值在于给研究者提供了一个标准化的楼宇级测试平台。实验证明MANSION生成的场景在布局合理性和可用性上都非常不错。这个成果最近入选了CVPR 2026大会,得到了学术界的高度认可。这也证明了中国机器人技术在前沿领域的实力。通过这种方式生成整栋楼的大模型技术近年来发展很快,但之前的场景基准明显落后了。真实数据太贵也太难编辑;合成环境大多是单层的结构。 MANSION混合框架把这些问题都解决了。它先从整栋楼的功能分区和风格开始规划,再逐层生成拓扑结构和房间布局。通过几何求解保证生成的平面图符合物理约束,最后得到的是能在仿真器里运行的交互式3D场景。这个过程从源头上保证了楼梯和电梯这些关键结构对齐合理。他们把这些房子都放到了MansionWorld数据集中去了。 通过这个数据集和配套的模拟器升级工作,MANSION让具身智能真正跨出了一步。它打通了跨楼层长时程任务的全链路流程。在这个真实复杂的环境中测试机器人的能力至关重要。这个成果入选CVPR 2026也说明了它的创新性受到了广泛认可。