唐文斌:把“具身原生”元年给叫响

唐文斌在这天说,具身智能不该简单地把各种能力硬塞进去,“今年就把‘具身原生’元年给叫响”。“咱们干吗非得从中学毕业后才送去体校练?”在北京中关村展示中心那场“Physical AI Next”主题活动上,他直截了当地抛出了这一观点。作为原力灵机的CEO,唐文斌之前还是旷视联合创始人兼CTO。他一针见血地指出,“现在的具身模型就像个初中才被送去体校的学生”,基础不扎实,文化成绩也跟不上。 他觉得,真正的具身智能不该是后天补出来的“嫁接货”,得在数据、训练还有架构这三个方面把“具身原生”给落实了。说白了,对这类大模型来说,它不光是能跑在机器人上那么简单,得让智能本质和形成机制都长在物理交互上,变成一种新的AI路子。就拿刚发布的DM0举例,这模型不是拿别的大模型改的,是从头开始练的“具身原生”大模型。它是跟阶跃星辰的老板姜大昕联合训练的,不光融合了互联网上的多模态信息,还加了不少驾驶、操作导航这些多感官数据。 为了增强它的跨机型能力,DM0在预训练阶段把抓取、导航和全身控制这三类任务混在一起练了一遍,而且还跑了好几种差别挺大的机器人型号。 另一边,虽然融资热得发烫、演示视频到处都是,机器人动作也越来越复杂,但落地时要么场景受限,要么不稳定、成本高或者不安全这些老问题始终没解决。 智源研究院的院长王仲远在圆桌论坛上说:“看着挺热闹的背后其实挺让人担心。”他觉得硬件确实进步了——前年还只会走两步路,去年就会跑了,现在也能干点活儿了。可模型这一块远没到ChatGPT那种火候。什么端到端VLA、世界模型……虽然路子很多,但谁也没能真正突破“泛化”这道坎。 阶跃星辰的姜大昕也说:“要想把ChatGPT时刻给赶出来会更难些。”他说泛化不是单一方面的问题,“它是在场景、任务、目标这些多个维度同时发生的变化”。大家都在忙活,但到底在哪个维度上才算“ChatGPT时刻”,到现在也没达成共识。 清华大学的汪玉教授又抛出一个有意思的问题:“要是以后机器人真要进家里来住,咱们房子本身是不是也得变变样子?”他提议学学车路协同那套思路,“把基础设施和物理环境改一改”,这或许能给机器智能找出条新路。 唐文斌觉得规模化落地靠堆场景没用,“得把‘一个场景、一千台、持续运行’给做成闭环才行”。只有这才算真正迈过了产业化的门槛。