2018年,美国OpenAI公司发明了GPT模型。到了2022年,他们又推出了ChatGPT。北京大学教授黄铁军介绍,他的团队受此启发,研究出了Emu模型。这个模型和GPT有点像,都是把数据当成积木,让AI像玩歌词接龙那样去预测下一块积木是什么样子。北京智源人工智能研究院主导了这个研究,这个成果最近在国际权威期刊《自然》上发表了。这是中国科研机构第一次在《自然》正刊上发布自己的大模型原创成果。这次研究主要解决的问题是怎么让AI既能看又能想还能做。之前的AI往往是分开的系统,比如有的负责聊天,有的负责画画,有的负责运动。这种方式虽然各有分工,但是协同起来成本很高。Emu3模型就把这些功能整合到了一起。你给它一段文字描述,它就能生成图像;你给它一张照片和问题,它能回答问题并理解图片内容;还能生成连续的视频片段。黄铁军说这种统一架构让多模态模型的“理解”和“生成”能力系统性地打通了。晋浩天表示这个研究证明了生成式人工智能技术路线的普适性。大家可以通过这种方式让不同智能在一个系统里涌现出来,为实现真正通用的人工智能指明了方向。在升级版Emu3.5里,研究团队通过引入大规模长时序视频训练让模型开始学习世界随时间演化的规律。这也给开发更完整的“世界模型”探索了可行路径。