清华大学和蚂蚁集团联手搞出了areal，把ai 推理训练的速度给提上去了2.77倍！

清华大学和蚂蚁集团联手搞出了AReaL，把AI推理训练的速度给提上去了2.77倍！这回大家要知道，在人工智能发展得这么快的当下，强化学习RL可是大语言模型LLM提升逻辑推理能力的重要手段。他们这次放出了AReaL v1.0稳定版，是个开源强化学习训练框架。这套系统专门为了提高大规模异步强化学习的效率而生，尤其是在处理那些复杂的推理任务时，性能特别好。大家可能知道，以前的RL训练系统都是同步机制的，等所有输出都完事才能开始下一步。这么一来，GPU算力基本就浪费在那干等上了，特别是遇到难啃的骨头时效率低得很。 AReaL不一样，它把生成和训练的流程分开来做。生成器只管干活不停产数据，训练器凑够了数据马上更新模型。这样就不用等着所有人都干完活再动了，硬件利用率一下子就上去了，训练也变得很流畅。不过异步有个麻烦事就是数据容易变旧。为了把这事儿解决好，研究团队弄出了个陈旧度感知机制，通过调整工作量来保证数据新鲜度。算法层面他们还加了PPO目标函数解耦技术和可中断生成技术，让模型能在生成的同时无缝更新权重。实验结果摆在这里看：同样数量的GPU跑AReaL比传统系统快得多。最快提升了2.77倍速度，而且这不是瞎折腾出来的假快——准确率没掉反升了，有些题做得还更溜了。这就说明AReaL确实厉害，也给以后的AI训练提供了新路子。现在科技变化太快了，AReaL这种高效工具肯定能帮到大家。未来大语言模型往“大推理模型”LRM发展时，RL的应用前景还能更宽呢。