蒸馏解码(distilled decoding,简称dd)技术

在2025年的ICLR大会上,清华大学电子工程系与微软研究院的联合团队带来了一个让人眼前一亮的成果——蒸馏解码(Distilled Decoding,简称DD)技术。这就像给那些慢慢画画的AI画家吃了颗速效药,让它们能一步到位地画出高质量的图像。 以前,自回归模型生成一张256×256像素的图像要走256步,算下来差不多要5秒钟。比如现在最火的LlamaGen模型就是这么慢。但清华团队的想法特别大胆,他们把自回归模型和流匹配技术结合起来,硬生生把步数从256压缩到了1步。 这其中的关键在于流匹配技术,它就像是一座桥梁,让噪声和目标图像之间建立了一种确定性的联系。有了这座桥,神经网络就能直接把完整的噪声序列变成完整的图像序列,完全不需要一点点地画。 在实际测试中,DD的表现非常惊人。用VAR模型试了一下,步数从10步变成了1步,速度快了6.3倍,FID指标也只从4.19上升到了9.96。更夸张的是在LlamaGen上,速度提升了217.8倍,256步的任务直接变成了1步完成,FID也只是从4.11涨到了11.35。 这种技术不仅速度快,而且非常灵活。你可以根据自己的需求选择生成步数,想要极速出图就选1步模式,想要高画质就多选几步。研究团队还发现,DD还能和原始模型配合使用,先快速生成整个画面,再对局部细节进行精细化处理,实现速度和质量的平衡。 虽然目前的研究主要集中在图像领域,但它给我们展示了自回归模型也可以变得很高效。这一突破挑战了传统观念中“自回归一定慢”的认知,证明了技术创新的巨大潜力。有兴趣的读者可以通过论文编号arXiv:2412.17153v3查阅详细内容。 总之,这项蒸馏解码技术的成功意义重大。它不仅在技术上实现了突破,更是在概念上为自回归模型的发展指明了新方向。未来随着技术的完善,DD很可能会给图像创作、内容生产等领域带来革命性的变化。