rl token 技术让机器人重新做大手术

Physical Intelligence领域传来了好消息,机器人经过短短15分钟的训练,就学会了精细操作,工厂打工似乎真的不远了。以前机器人在做一些精细活时,经常因为手腕微微一抖,就把整个任务搞砸了,效率也很低。现在 Physical Intelligence团队搞出了个RL token技术,让机器人只需要花点时间在真实环境里操作一下,就能完成拧螺丝、插网线这些高难度任务。这个技术最厉害的地方就是没给机器人重新做大手术,而是给它挂了个“外挂”,专门负责处理那些小细节动作。这一招让机器人进化速度翻了好几倍,在某些任务上甚至比人还快。比如拧那个10厘米长的微型螺丝,要求定位精确到亚毫米级,这对机器人来说一直是个大难题。研究团队先把VLA模型改了改,让它生成简洁的RL token,把大量的数据信息压缩成了一份简要的摘要。然后又设计了一套轻量化的强化学习系统,Actor网络负责指挥动作,Critic网络来评价效果。这个系统直接装在机器人身上,能实时处理几百次的操作反馈,每次试错后马上就能把策略调优。团队还专门设计了四个挑战性任务:拧M3螺丝、系扎带、插网线和电源线。这些任务最后几毫米的接触精度非常关键,之前的模型虽然能完成前面的动作,但经常在最后一步因为角度没抓好或者时机不对就失败了。RL token技术通过针对性的强化学习,只用15分钟的真实操作数据就能把这些难关搞定。比如插网线这个活,机器人在2小时训练(包括15分钟实操)后,不仅成功率高了很多,一半的速度还能赶上人类示范。这项技术的突破性在于建立了一套通用的训练框架。它让机器人通过预测动作块保持与VLA模型的一致性,采取“修改而非推翻”的策略来优化现有的动作,还引入了参考动作dropout机制防止模型偷懒,并且支持人类随时干预反馈。这些设计让在线强化学习变成了可以反复使用的工具,不用为每个新任务重新设计一套流程,就能直接应用到各种精密操作场景里去。