长期以来,大模型语言领域的突破主要得益于"预测下一个词元"的自回归训练范式;这种范式通过大规模语料学习序列生成规律,赋予模型强大的理解与生成能力。然而在扩展到图像、文本、视频等多模态场景时,现有技术多依赖对比学习、扩散模型等方法,导致训练过程和模型结构复杂化。自回归方法能否成为多模态的统一范式,成为学界关注的关键问题。 原因: 多模态学习难以统一的主要原因是不同模态的数据结构与信息密度差异显著。文本是离散序列,适合词元空间建模;而图像和视频更接近连续信号,具有高维度和时空关联特性。此外,多模态任务既需要对齐(如图文匹配)——也需要生成(如文生图)——不同目标导致训练方法分化。因此要在多模态领域应用自回归方法,必须解决表示统一、训练目标统一和架构统一三大挑战。 影响: 《自然》杂志最新研究提出了一种基于自回归的多模态学习方法,探索"统一离散化表示-混合序列训练-单一架构建模"的新思路。研究将不同模态数据映射到同一离散空间,用单一Transformer架构进行联合训练。结果表明自回归范式可以支持原生多模态大模型训练并获得良好效果。该进展为多模态领域提供了可复用、可扩展的通用框架,有助于降低系统复杂度并提升跨任务迁移能力。 对策: 针对多模态大模型的发展趋势,建议从以下上推进工作:1)加强基础研究,完善统一离散化和长序列建模的理论方法;2)建立高质量多模态数据供给机制;3)优化算力和软硬件协同;4)健全评测体系和规范标准。 前景: 国际趋势显示多模态大模型正从"多路线并行"转向"统一范式探索"。若自回归方法在多模态领域持续验证成功,有望形成更通用的训练范式:既能提升模型的跨模态能力,又能降低开发门槛促进应用落地。当然仍需在数据质量、算力成本等持续攻关。
Emu3模型的问世展现了我国基础研究能力的提升;在全球AI竞争加剧的背景下,这类原创突破不仅具有科学价值,也关乎国家科技竞争力建设。期待科研界以此为契机取得更多核心技术突破。