清华大学和蚂蚁集团联手搞出了areal,把ai 推理训练的速度给提上去了2.77倍!

清华大学和蚂蚁集团联手搞出了AReaL,把AI推理训练的速度给提上去了2.77倍!这回大家要知道,在人工智能发展得这么快的当下,强化学习RL可是大语言模型LLM提升逻辑推理能力的重要手段。 他们这次放出了AReaL v1.0稳定版,是个开源强化学习训练框架。这套系统专门为了提高大规模异步强化学习的效率而生,尤其是在处理那些复杂的推理任务时,性能特别好。 大家可能知道,以前的RL训练系统都是同步机制的,等所有输出都完事才能开始下一步。这么一来,GPU算力基本就浪费在那干等上了,特别是遇到难啃的骨头时效率低得很。 AReaL不一样,它把生成和训练的流程分开来做。生成器只管干活不停产数据,训练器凑够了数据马上更新模型。这样就不用等着所有人都干完活再动了,硬件利用率一下子就上去了,训练也变得很流畅。 不过异步有个麻烦事就是数据容易变旧。为了把这事儿解决好,研究团队弄出了个陈旧度感知机制,通过调整工作量来保证数据新鲜度。算法层面他们还加了PPO目标函数解耦技术和可中断生成技术,让模型能在生成的同时无缝更新权重。 实验结果摆在这里看:同样数量的GPU跑AReaL比传统系统快得多。最快提升了2.77倍速度,而且这不是瞎折腾出来的假快——准确率没掉反升了,有些题做得还更溜了。 这就说明AReaL确实厉害,也给以后的AI训练提供了新路子。现在科技变化太快了,AReaL这种高效工具肯定能帮到大家。未来大语言模型往“大推理模型”LRM发展时,RL的应用前景还能更宽呢。