腾讯开源世界模型，让世界模型更聪明的强化学习框架给开源出来

腾讯弄出了一个叫WorldCompass的东西，算是给强化学习（RL）这事儿指了条新路子。大家都知道，现在AI这领域里，RL慢慢成了带智能系统往前冲的重要技术。最近，腾讯混元3D那边说了要把一个能让世界模型更聪明的强化学习框架给开源出来，这个框架就叫WorldCompass。它是从混元世界模型1.5那自带的强化学习扩展模块改过来的，主要是为了让模型听得懂人话，还能在虚拟世界里玩得更溜，看着也顺眼。你可以把这个框架看成是帮世界模型找路的“指南针”，因为它引入了强化学习的机制，让模型能更好地跟着人的指令走，去探索虚拟世界，还能保持画面不乱。这次推出的东西不光是腾讯自家技术又上了一个台阶，还给搞开发的人提供了一个厉害的工具，能把世界模型的应用推得更远。他们做的实验数据挺好看，WorldCompass把开源世界模型里的SOTA（也就是最好的）——WorldPlay的准确性和画面保真度都给提升了不少。特别是在做那些复杂的组合动作时，准确度涨得最明显，差不多有35%。打个比方，原本要是让模型又走路又转圈这种复杂的动作，成功率才只有20%多一点；现在用了WorldCompass训练后，成功率直接冲到了55%。就连那些简单的动作，准确率也涨了10%左右。这么一弄，大家用起来肯定就顺溜多了。这成绩也证明了它在斯坦福大学那个世界模型的Benchmark——也就是WorldScore上的评分更好。相关的代码和模型细节都已经发出来了，大家都能去看也能拿来用。从大的角度看，WorldCompass不光是技术上有进步，也算是AI跟现实打交道能力的一大步。随着AI技术越来越强，以后在游戏、开车、智能家居这些地方肯定能玩出更多花样。总之这次发布给强化学习这块儿加了把劲，推动了世界模型的进化。以后有更多人来参与这个开源项目的话，我相信以后世界模型的玩法会更多样化，也能给我们的生活带来更多便利和惊喜。