浪潮元lab 开源yuan3.0 ultra多模态基础大模型

浪潮元Lab的团队今天放出了Yuan3.0 Ultra这个多模态基础大模型，这是专门面向万亿参数的旗舰产品。开源的重头戏在训练效率上，它们通过把MoE架构和LAEP方法结合，把模型在初始阶段的参数规模从1515B直接压到了1010B，这招让预训练的算力效率提高了49%。为了让视觉跟语言信息能好好配合，这个模型设计了一个统一的多模态架构，里面有视觉编码器、语言主干还有对齐模块。语言主干是基于MoE建的，一共有103层Transformer。为了让模型能在企业复杂任务上更出色，团队围绕智能体工具调用这些环节做了很多优化。比如在处理图文混排文档、多级表格和跨文档检索这些任务时表现很好，这些能力给基于OpenClaw框架的Agent AI提供了支撑。模型还引入了Localized Filtering Attention（LFA）机制，用来强化对语义关系的建模能力，比经典Attention结构要更精准。除了基本的模型权重（16bit和4bit），这次开源还把技术报告、训练方法和评测结果都给放出来了，方便大家在这基础上做二次训练或者定制。这个系列的基础大模型还会有Flash、Pro和Ultra三个版本，对应的参数量分别是40B、200B和1T。IT之家附上了Yuan3.0 Ultra的开源地址。