浪潮元Lab的团队今天放出了Yuan3.0 Ultra这个多模态基础大模型,这是专门面向万亿参数的旗舰产品。开源的重头戏在训练效率上,它们通过把MoE架构和LAEP方法结合,把模型在初始阶段的参数规模从1515B直接压到了1010B,这招让预训练的算力效率提高了49%。为了让视觉跟语言信息能好好配合,这个模型设计了一个统一的多模态架构,里面有视觉编码器、语言主干还有对齐模块。语言主干是基于MoE建的,一共有103层Transformer。 为了让模型能在企业复杂任务上更出色,团队围绕智能体工具调用这些环节做了很多优化。比如在处理图文混排文档、多级表格和跨文档检索这些任务时表现很好,这些能力给基于OpenClaw框架的Agent AI提供了支撑。模型还引入了Localized Filtering Attention(LFA)机制,用来强化对语义关系的建模能力,比经典Attention结构要更精准。 除了基本的模型权重(16bit和4bit),这次开源还把技术报告、训练方法和评测结果都给放出来了,方便大家在这基础上做二次训练或者定制。这个系列的基础大模型还会有Flash、Pro和Ultra三个版本,对应的参数量分别是40B、200B和1T。IT之家附上了Yuan3.0 Ultra的开源地址。