谁说效率和画质只能二选一?最近有个技术把速度提升了3倍多,还让画面变得更细腻了。具体来说,生成一张高清图的时间从12秒缩短到了3.4秒,5秒的短视频也不再需要熬上30分钟的大夜。这主要是因为以前的算法太死板了,不管画天空还是睫毛都用同样的笔触,浪费了好多计算力。现在我们的灵感爆发时再也不用看着屏幕干瞪眼了。 给AI找灵感的过程有点像玩拼图游戏。以前的方法就像用统一规格的拼图块去拼画,不管是蓝天还是睫毛都一刀切。但人类画家可是很讲究的,他们会先用大块颜料铺底色,再用细笔画睫毛。于是我们把这个方法用到了AI上,提出了“动态补丁调度”,让AI自己判断该用哪支笔去画。 具体怎么操作呢?分成三个阶段。第一阶段是用大补丁快速铺色,把图像的“骨架”先搭好。这时候重点不是细节,只要把天和地分开就行。用大补丁能省下一半的计算量,但是视觉效果基本没受影响。第二阶段就是细笔收尾了,这时候系统会自动换成小补丁去雕琢睫毛、砖缝这些细微的地方。第三阶段也很重要,视频里有时候场景会变,有时候动作很快。这个算法也能分辨出来,转场的时候用大补丁快速过渡一下就行,动作帧马上换上小补丁捕捉运动模糊的效果。 想让老模型学会这套新玩法不需要重头训练模型。团队采用了LoRA这种轻量级适配器来给原来的模型插上“多进纸器”。每个尺寸的补丁对应一个适配器模块,核心参数不用动。因为LoRA有低秩特性和残差连接这两个特性,所以训练成本能大大降低。就好比给发动机加了个涡轮一样既省油又能跑起来。 系统是怎么知道该用大补丁还是小补丁的呢?关键在于观察图像变化的速度。计算连续帧的三阶导数就能衡量“变化的变化的变化”。如果曲线平缓就说明这是一个平稳的画面,用大补丁就行;如果曲线陡峭说明细节变化多就需要用小补丁来处理。引入百分位数平滑还能过滤掉个别异常值避免频繁来回切换。 做了实际测试之后数据说话。在基准模型的基础上加上DDiT速度提升了3.52倍。质量方面FID、CLIP、ImageReward这几个指标基本持平,甚至在部分场景还有微增0.3%的表现。视频方面也是一样,5秒720p的视频从30分钟缩短到了10分钟。Wan-2.1模型在DDiT的加持下VBench综合评分达标了动作连贯性和清晰度也都没问题。 在线做了个大规模盲测结果挺有意思:61%的人觉得加速后的图片质量“完全一样”;22%的人还是偏爱原始模型;更让人意外的是有17%的人觉得DDiT版本更好看——速度提升带来了更流畅的视觉体验反而让画质也加分了。 除了速度快之外这个技术还有个好处是通用性很强。不管是文本生成、语音合成还是芯片设计等领域都能借鉴这种先粗后精的策略。以后设计师就能即时迭代海报了;教育工作者也能实时生成课堂素材;短视频创作者更是告别了“熬夜渲染”的日子。研究团队表示只要是基于Transformer的生成模型都能插上这枚“速度芯片”。 最后总结一下:鱼和熊掌是可以兼得的。DDiT告诉我们速度和质量不再是零和博弈。当AI学会像人类一样先打草稿再描细节的时候计算力被精准投喂到真正需要的地方效率与画质自然就能双赢。未来“单步内动态切换”也会成为可能那时候AI生成工具也将从专业利器走向大众玩具——灵感闪现的那一刻不会再被漫长的等待偷走热度了。