西电联合多所高校提出可泛化知识蒸馏新框架 明显提高小模型跨场景能力

当前人工智能领域面临一项突出难题:大型基础模型知识丰富、泛化能力强,但体积大、部署和运行成本高;小型模型更轻便高效,却常在新环境中表现不稳。如何把大型模型的关键能力有效传递给小型模型,让其在资源受限条件下仍具备更强的视野拓展与迁移能力,成为影响AI落地的重要瓶颈。传统知识蒸馏在固定场景中效果尚可,但更多是让小模型模仿大模型的输出,容易使小模型对训练环境形成依赖,难以举一反三。尤其在视觉基础模型快速发展、应用场景日益复杂的背景下,这种局限更加明显:小模型在实验环境表现不错,进入真实、变化更大的场景后则可能出现明显的性能下滑。为此,西安电子科技大学人工智能学院与意大利特伦托大学、清华大学自动化系、合肥工业大学等机构联合攻关,提出可泛化知识蒸馏框架(GKD),从学习机制上调整了知识传递的方式。 该框架的第一项创新,是对模型学习流程进行重构。研究团队指出,将“理解问题”和“直接做题”同步训练,容易让模型过度关注题型特征而忽略更普遍的规律。为此,他们采用分阶段训练:第一阶段侧重基础理解能力,训练模型抓住问题的核心特征;第二阶段在尽量不损伤第一阶段能力的前提下,再学习具体任务技巧。实验结果显示,该策略将从大型基础模型到小型基础模型的知识传递性能平均提升1.9%,向本地训练小模型的传递性能提升10.6%。 第二项创新是引入查询式软蒸馏机制。与传统“被动接收”不同,该机制让小模型在遇到新场景时能够“主动提问”:不再试图机械记住所有细节,而是基于自身理解向大模型发起针对性查询;大模型则根据这些查询反馈最对应的的信息。通过交互式学习,小模型更容易聚焦关键信息,减少无关细节带来的干扰,从而获得更灵活、更稳健的理解能力。 此外,研究团队还引入掩码补丁级蒸馏技术,以增强模型在视觉任务中的细节建模与处理能力。多项改进相互配合,形成了更系统、更高效的知识传递体系。 这项研究具有明确的应用价值。随着边缘计算和移动端应用普及,轻量级AI模型的部署需求持续增长。过去在资源受限设备上部署小模型往往需要在性能与泛化能力之间取舍。该研究为在有限算力与存储条件下实现更高性能、更强泛化的模型提供了新路径,有望应用于智能手机、物联网设备、无人机等场景。同时,其思路也对更广泛的“知识传递”问题具有参考意义:如何设计更合理的学习机制,使传递既高效又能保留深度,是教育与培训等领域同样需要面对的课题。

这项研究成果反映了我国在基础算法探索上的又一进展。它也提示我们,破解复杂问题不仅依赖技术手段的提升,也离不开对既有路径的重新审视。当研究者跳出惯性思路,从不同学科与方法角度重构训练机制时,往往能找到更有效的突破口。这种融入学习机制设计的AI训练范式,或将为下一代人工智能技术演进提供新的方向。