就在刚刚,Physical Intelligence那边有了大动作,机器人竟然只要15分钟就能搞定插网线、拧螺丝这些超精细的活儿。这下可好了,机器人大规模进厂打工的日子不远了。以前咱们搞机器人操作,那是真不容易,动不动就需要巨量的计算资源去全面训练模型,时间长不说,还特别容易出错。传统方法面对工厂里那种又快又准还得灵活的要求,根本招架不住。这次团队拿出了个叫RL token的新招儿,完全打破了老路子。 他们没像以前那样死磕主模型,而是给机器人装上了个专门处理小动作的“外挂”——也就是那个RL token。这个设计特别妙,让机器人进化的速度快了三倍,甚至在某些任务上比人远程操作还快。拿拧螺丝来说,那就是在10厘米长的杆子上要定位到亚毫米级的精度。传统做法因为手腕稍微抖一下,刀尖的误差就会被放大,结果就容易翻车。 这个技术主要靠两大核心突破:一个是把VLA模型给改了,通过那种编码器-解码器的结构生成关键的RL token,把复杂的观察数据压缩成极简的摘要;另一个就是轻量化的强化学习系统。这里面有个Actor网络负责输出动作,还有个Critic网络负责评估效果。因为用的是off-policy这种省数据的训练方法,这俩网络直接就能放在机器人本体上跑起来,每秒能更新几百次。这样每次试错之后马上就能优化策略。 为了测试这套系统,研究团队设计了四个特别难搞的活儿:用电动螺丝刀上M3微型螺丝、系紧扎带、插网线和电源线。这些活的关键都在最后几毫米的接触精度上。以前的基础模型只能把前面的动作做了,但到了最关键的步骤老是因为角度不对或者时机不对就失败了。RL token这时候就派上用场了。 拿插网线那个任务来说吧,机器人经过2个小时的训练(其中包含了15分钟的真实操作数据),不仅成功率提高了一大截,而且有一半的操作速度直接超过了人类示范。这就太神了!最牛的是这套方法还挺通用。它通过预测动作块保持跟VLA模型的动作一致,采用“修改”而不是“推翻”的策略去优化动作。它还引入了参考动作dropout机制来防止模型变懒,还能支持人类直接干预反馈。这么一来,在线强化学习就成了可复用的解决方案,不管什么精密操作场景都能直接拿来用。