近年来,大模型技术快速发展,已成为全球科技竞争和产业变革的关键领域。在语言领域,基于"预测下一个词元"的自回归训练范式明显提高了语言模型能力,催生了大量生成式应用。然而在多模态学习领域,主流方法仍主要依赖对比学习和扩散模型等专门化方案:通过跨模态对齐实现理解能力,利用生成机制提升图像或视频合成质量。自回归方法能否从语言领域扩展到多模态任务,以及是否能用统一范式处理不同模态数据,一直是基础研究的重要课题。
自回归范式从语言模型成功扩展到多模态学习,表明了AI研究追求通用性和简洁性的趋势。该成果不仅为多模态大模型发展指明了方向,也为通用AI提供了新的理论基础。随着中国在基础理论研究的持续突破,我国有望在下一代生成式AI发展中占据主动,为全球AI产业发展作出重要贡献。