ai正变得更通用、更自主，这条探索之路意味着ai正变得更通用、更自主

北京智源人工智能研究院这次搞出了个大动静，2020年他们启动“悟道”大模型计划，2025年6月发布“悟界”系列，现在终于在国际顶级期刊《自然》正刊上登了个首秀。这回的突破挺有意思，就是把“预测下一个词元”这种看起来挺简单的自回归思路，给用到了处理图像和视频这种多模态数据上。大家都知道，现在大模型主要还是跟着GPT的路数走，专门做文字处理；但要是处理图像、视频这些东西，之前业内普遍还是用对比学习或者扩散模型，搞成了“分科而治”。这样一来架构复杂还不好协同，所以一直想找个更统一的法子。北京智源研究院这次给出了一个答案，他们弄出了Emu3.5这个多模态大模型。Emu3借鉴了GPT的成功经验，直接把“根据上文预测下一个单元”的核心逻辑用到了像素和视频帧这些视觉数据上。这就好比不管是文字、图片还是视频，模型都用同样的一套规则来学东西。实验证明，这种方法在生成图片、理解图文和做视频创作这些任务上，表现已经跟专门为这些任务设计的模型差不多了。《自然》的编辑也夸这法子好，说它对以后做那种统一的多模态智能系统很有帮助。更厉害的是，Emu3.5已经在学一些物理世界的动态规律了，能试着预测场景接下来会怎么变。这说明这条自回归的路子不光简单好用，还能让AI更像人一样去认知和行动。这事儿其实不是突然来的，是他们长期在探索大模型原始创新的成果。特别是“悟界”系列就是想让AI从数字世界走到物理世界里去。这套研究一步步铺就了从宏观具身智能到微观分子动力学的技术底座，是要把感知智能往认知智能、行动智能的方向纵深发展。这次能在《自然》正刊上发表，证明咱们国家在这方面的实力已经很强了。它不光在技术上给多模态学习提供了一个简洁又强大的统一范式，降低了搞复杂AI系统的门槛；更在科学层面强化了自回归这条可能成为通用智能主线的地位。从统一多模态表达到开始感知物理规律，这条探索之路意味着AI正变得更通用、更自主。坚持做长期主义的原始创新，咱们国家的科研机构在全球AI的基础层和前沿方向上，正贡献着很重要的中国智慧和中国方案。