腾讯开源世界模型,让世界模型更聪明的强化学习框架给开源出来

腾讯弄出了一个叫WorldCompass的东西,算是给强化学习(RL)这事儿指了条新路子。大家都知道,现在AI这领域里,RL慢慢成了带智能系统往前冲的重要技术。最近,腾讯混元3D那边说了要把一个能让世界模型更聪明的强化学习框架给开源出来,这个框架就叫WorldCompass。它是从混元世界模型1.5那自带的强化学习扩展模块改过来的,主要是为了让模型听得懂人话,还能在虚拟世界里玩得更溜,看着也顺眼。 你可以把这个框架看成是帮世界模型找路的“指南针”,因为它引入了强化学习的机制,让模型能更好地跟着人的指令走,去探索虚拟世界,还能保持画面不乱。这次推出的东西不光是腾讯自家技术又上了一个台阶,还给搞开发的人提供了一个厉害的工具,能把世界模型的应用推得更远。 他们做的实验数据挺好看,WorldCompass把开源世界模型里的SOTA(也就是最好的)——WorldPlay的准确性和画面保真度都给提升了不少。特别是在做那些复杂的组合动作时,准确度涨得最明显,差不多有35%。打个比方,原本要是让模型又走路又转圈这种复杂的动作,成功率才只有20%多一点;现在用了WorldCompass训练后,成功率直接冲到了55%。就连那些简单的动作,准确率也涨了10%左右。这么一弄,大家用起来肯定就顺溜多了。 这成绩也证明了它在斯坦福大学那个世界模型的Benchmark——也就是WorldScore上的评分更好。相关的代码和模型细节都已经发出来了,大家都能去看也能拿来用。 从大的角度看,WorldCompass不光是技术上有进步,也算是AI跟现实打交道能力的一大步。随着AI技术越来越强,以后在游戏、开车、智能家居这些地方肯定能玩出更多花样。 总之这次发布给强化学习这块儿加了把劲,推动了世界模型的进化。以后有更多人来参与这个开源项目的话,我相信以后世界模型的玩法会更多样化,也能给我们的生活带来更多便利和惊喜。