rl token 技术让机器人重新做大手术

Physical Intelligence领域传来了好消息，机器人经过短短15分钟的训练，就学会了精细操作，工厂打工似乎真的不远了。以前机器人在做一些精细活时，经常因为手腕微微一抖，就把整个任务搞砸了，效率也很低。现在 Physical Intelligence团队搞出了个RL token技术，让机器人只需要花点时间在真实环境里操作一下，就能完成拧螺丝、插网线这些高难度任务。这个技术最厉害的地方就是没给机器人重新做大手术，而是给它挂了个“外挂”，专门负责处理那些小细节动作。这一招让机器人进化速度翻了好几倍，在某些任务上甚至比人还快。比如拧那个10厘米长的微型螺丝，要求定位精确到亚毫米级，这对机器人来说一直是个大难题。研究团队先把VLA模型改了改，让它生成简洁的RL token，把大量的数据信息压缩成了一份简要的摘要。然后又设计了一套轻量化的强化学习系统，Actor网络负责指挥动作，Critic网络来评价效果。这个系统直接装在机器人身上，能实时处理几百次的操作反馈，每次试错后马上就能把策略调优。团队还专门设计了四个挑战性任务：拧M3螺丝、系扎带、插网线和电源线。这些任务最后几毫米的接触精度非常关键，之前的模型虽然能完成前面的动作，但经常在最后一步因为角度没抓好或者时机不对就失败了。RL token技术通过针对性的强化学习，只用15分钟的真实操作数据就能把这些难关搞定。比如插网线这个活，机器人在2小时训练（包括15分钟实操）后，不仅成功率高了很多，一半的速度还能赶上人类示范。这项技术的突破性在于建立了一套通用的训练框架。它让机器人通过预测动作块保持与VLA模型的一致性，采取“修改而非推翻”的策略来优化现有的动作，还引入了参考动作dropout机制防止模型偷懒，并且支持人类随时干预反馈。这些设计让在线强化学习变成了可以反复使用的工具，不用为每个新任务重新设计一套流程，就能直接应用到各种精密操作场景里去。