智源搞出的多模态大模型成果就是那个叫multimodal learning with next-token prediction for large multi

1月29日，记者从北京市科委还有中关村管委会那里听说，智源这个团队搞出的多模态大模型成果——就是那个叫“Multimodal learning with next-token prediction for large multimodal models”的项目——给《Nature》这个国际顶级期刊看上了，28号直接在杂志网站上线了。等把论文的纸质版弄出来，大概是2月12日。这是中国自己的科研机构主导的大模型第一次在《Nature》正刊露面。从2018年开始，那个叫GPT的模型就是靠“预测下一个词元”这条自回归路子起家的，把语言模型给干出了名堂，后来的生成式人工智能就是这么火起来的。不过其他多模态的模型大多还在靠对比学习、扩散模型这些专门的路子干活。大家一直在想，自回归能不能把多模态的活儿也给统一了？这事儿以前一直没搞明白。智源这次做的研究就把这个谜给解开了。他们只用自回归这一套路子，就能把文本、图像和视频这些不同的模态给统一起来学习，训练出那种原生的多模态大模型。这事儿对把自回归当成生成式人工智能的统一路线有大意义。 Nature那边的编辑评论说，智源提出来的那个Emu3模型特别厉害，光靠预测下一个词元，就把大规模的文本、图像还有视频给统一学了。它在生成和感知任务上做得跟用专门路线的模型差不多好。这个研究对咱们以后造那种扩展性好、又统一的多模态智能系统很有帮助。听说智源Emu这个系列的研发是从2022年开始的。他们一直盯着“原生多模态”这个核心技术死磕，每出个新的版本都在关键能力或者方法论上有新突破。接下来智源打算接着搞智能和物理世界的深层联系，推动面向下一代人工智能的科研创新。