唐文斌：把“具身原生”元年给叫响

唐文斌在这天说，具身智能不该简单地把各种能力硬塞进去，“今年就把‘具身原生’元年给叫响”。“咱们干吗非得从中学毕业后才送去体校练？”在北京中关村展示中心那场“Physical AI Next”主题活动上，他直截了当地抛出了这一观点。作为原力灵机的CEO，唐文斌之前还是旷视联合创始人兼CTO。他一针见血地指出，“现在的具身模型就像个初中才被送去体校的学生”，基础不扎实，文化成绩也跟不上。他觉得，真正的具身智能不该是后天补出来的“嫁接货”，得在数据、训练还有架构这三个方面把“具身原生”给落实了。说白了，对这类大模型来说，它不光是能跑在机器人上那么简单，得让智能本质和形成机制都长在物理交互上，变成一种新的AI路子。就拿刚发布的DM0举例，这模型不是拿别的大模型改的，是从头开始练的“具身原生”大模型。它是跟阶跃星辰的老板姜大昕联合训练的，不光融合了互联网上的多模态信息，还加了不少驾驶、操作导航这些多感官数据。为了增强它的跨机型能力，DM0在预训练阶段把抓取、导航和全身控制这三类任务混在一起练了一遍，而且还跑了好几种差别挺大的机器人型号。另一边，虽然融资热得发烫、演示视频到处都是，机器人动作也越来越复杂，但落地时要么场景受限，要么不稳定、成本高或者不安全这些老问题始终没解决。智源研究院的院长王仲远在圆桌论坛上说：“看着挺热闹的背后其实挺让人担心。”他觉得硬件确实进步了——前年还只会走两步路，去年就会跑了，现在也能干点活儿了。可模型这一块远没到ChatGPT那种火候。什么端到端VLA、世界模型……虽然路子很多，但谁也没能真正突破“泛化”这道坎。阶跃星辰的姜大昕也说：“要想把ChatGPT时刻给赶出来会更难些。”他说泛化不是单一方面的问题，“它是在场景、任务、目标这些多个维度同时发生的变化”。大家都在忙活，但到底在哪个维度上才算“ChatGPT时刻”，到现在也没达成共识。清华大学的汪玉教授又抛出一个有意思的问题：“要是以后机器人真要进家里来住，咱们房子本身是不是也得变变样子？”他提议学学车路协同那套思路，“把基础设施和物理环境改一改”，这或许能给机器智能找出条新路。唐文斌觉得规模化落地靠堆场景没用，“得把‘一个场景、一千台、持续运行’给做成闭环才行”。只有这才算真正迈过了产业化的门槛。