机器人15 分钟就能搞定插网线、拧螺丝这些超精细的活儿

就在刚刚，Physical Intelligence那边有了大动作，机器人竟然只要15分钟就能搞定插网线、拧螺丝这些超精细的活儿。这下可好了，机器人大规模进厂打工的日子不远了。以前咱们搞机器人操作，那是真不容易，动不动就需要巨量的计算资源去全面训练模型，时间长不说，还特别容易出错。传统方法面对工厂里那种又快又准还得灵活的要求，根本招架不住。这次团队拿出了个叫RL token的新招儿，完全打破了老路子。他们没像以前那样死磕主模型，而是给机器人装上了个专门处理小动作的“外挂”——也就是那个RL token。这个设计特别妙，让机器人进化的速度快了三倍，甚至在某些任务上比人远程操作还快。拿拧螺丝来说，那就是在10厘米长的杆子上要定位到亚毫米级的精度。传统做法因为手腕稍微抖一下，刀尖的误差就会被放大，结果就容易翻车。这个技术主要靠两大核心突破：一个是把VLA模型给改了，通过那种编码器-解码器的结构生成关键的RL token，把复杂的观察数据压缩成极简的摘要；另一个就是轻量化的强化学习系统。这里面有个Actor网络负责输出动作，还有个Critic网络负责评估效果。因为用的是off-policy这种省数据的训练方法，这俩网络直接就能放在机器人本体上跑起来，每秒能更新几百次。这样每次试错之后马上就能优化策略。为了测试这套系统，研究团队设计了四个特别难搞的活儿：用电动螺丝刀上M3微型螺丝、系紧扎带、插网线和电源线。这些活的关键都在最后几毫米的接触精度上。以前的基础模型只能把前面的动作做了，但到了最关键的步骤老是因为角度不对或者时机不对就失败了。RL token这时候就派上用场了。拿插网线那个任务来说吧，机器人经过2个小时的训练（其中包含了15分钟的真实操作数据），不仅成功率提高了一大截，而且有一半的操作速度直接超过了人类示范。这就太神了！最牛的是这套方法还挺通用。它通过预测动作块保持跟VLA模型的动作一致，采用“修改”而不是“推翻”的策略去优化动作。它还引入了参考动作dropout机制来防止模型变懒，还能支持人类直接干预反馈。这么一来，在线强化学习就成了可复用的解决方案，不管什么精密操作场景都能直接拿来用。