mit搞了个自适应的训练器，让那些干完活儿没事干的处理器赶紧去练草稿模型。

MIT 跟英伟达一块儿搞出了个叫TLT的技术，就是把推理大模型训练效率给翻了210倍。他们弄了个“驯服长尾”的办法，让草稿模型像预测员似的，把大模型以后要输出啥先猜出来，然后大模型再一堆一堆地去验证这些猜想。这招就不用再一个接一个地慢慢算，速度快了一大截。以前那种老方法里的草稿模型是死的，一两个小时就废了。这次研究团队搞了个自适应的训练器，让那些干完活儿没事干的处理器赶紧去练草稿模型。还有那个推演引擎也很聪明，会自己琢磨怎么解码。以前搞强化学习的时候，光是生成备选答案就要花掉85%的时间。因为有的机器算得快有的算得慢，算快的机器只能干等着，特别费电。MIT他们为了让干活更高效，就把这个问题给解决了。经过测试发现，这技术不仅没让模型变笨，还给速度加了油。好几个大语言模型的训练速度都比以前快了70%到210%。最绝的是那个轻量级的草稿模型练出来之后还能用在别的地方，直接拿去部署省了不少事儿。麻省理工学院(MIT)联合英伟达这些机构发了篇文章说这个事儿。未来他们打算把这个技术推广到更多的训练和推理框架里头去，好让AI开发更省钱也更省电。 Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter