MIT 跟英伟达一块儿搞出了个叫TLT的技术,就是把推理大模型训练效率给翻了210倍。 他们弄了个“驯服长尾”的办法,让草稿模型像预测员似的,把大模型以后要输出啥先猜出来,然后大模型再一堆一堆地去验证这些猜想。这招就不用再一个接一个地慢慢算,速度快了一大截。 以前那种老方法里的草稿模型是死的,一两个小时就废了。这次研究团队搞了个自适应的训练器,让那些干完活儿没事干的处理器赶紧去练草稿模型。还有那个推演引擎也很聪明,会自己琢磨怎么解码。 以前搞强化学习的时候,光是生成备选答案就要花掉85%的时间。因为有的机器算得快有的算得慢,算快的机器只能干等着,特别费电。MIT他们为了让干活更高效,就把这个问题给解决了。 经过测试发现,这技术不仅没让模型变笨,还给速度加了油。好几个大语言模型的训练速度都比以前快了70%到210%。 最绝的是那个轻量级的草稿模型练出来之后还能用在别的地方,直接拿去部署省了不少事儿。 麻省理工学院(MIT)联合英伟达这些机构发了篇文章说这个事儿。 未来他们打算把这个技术推广到更多的训练和推理框架里头去,好让AI开发更省钱也更省电。 Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter