我国科技企业开源新一代全模态智能模型实现多场景高效交互

当前大模型应用中，一个突出问题是交互方式受限。传统对话系统多为“对讲机”式回合制：用户先问、模型再答。这种被动、割裂的节奏难以支撑更自然、连贯的沟通。面壁智能此次开源的MiniCPM-o 4.5，正是针对此痛点而来。该模型的核心创新，是采用原生全双工的全模态架构。通过集成全双工多模态实时流机制、主动交互机制以及可配置的语音建模设计，MiniCPM-o 4.5实现了“感知不中断、对话不死板、提醒无需问”的交互体验。也就是说，模型可同时进行视觉感知、语音理解与语言生成——不再按固定顺序串行执行——从而缓解传统大模型交互上的瓶颈。在参数效率上，MiniCPM-o 4.5表现出较强竞争力。在9B参数规模下，模型在全模态能力、视觉理解、文档解析、语音理解与生成、声音克隆等多个维度达到业界先进水平。这种“高密度”设计在保证性能的同时，降低了部署与运行成本，更贴近实际落地需求。在推理效率上，MiniCPM-o 4.5通过优化显存占用与响应速度，更提升能效表现。这对边缘计算、移动设备等资源受限场景尤为关键，让高性能的全模态交互能力更易推广到更广泛的终端。语音生成能力的提升也是该模型的一大亮点。通过模型设计与数据方法上的改进，MiniCPM-o 4.5在音色一致性、拟人度与表达力等进行了系统优化。模型可在输出过程中自动匹配更合适的语气与音色，并针对长语音合成中常见的音色漂移、语气生硬等问题做出改进。声音克隆功能则进一步拓展了应用边界。用户只需提供数秒声音样本，MiniCPM-o 4.5即可克隆出定制音色，并基于该音色开展角色扮演式语音对话，为虚拟助手、内容创作、教育等场景带来更多可用玩法。从生态布局看，MiniCPM-o 4.5已在GitHub、Hugging Face等主流开源平台发布，便于开发者获取与使用。依托统一系统软件栈FlagOS的跨平台能力，该模型在天数智芯、华为昇腾、平头哥、海光、沐曦等6款国产芯片上实现端到端推理性能提升，对完善国产芯片与模型生态具有积极作用。

从“看得懂、听得清、说得快”走向“对话更自然、部署更高效、生态更可用”，多模态技术正加速从实验室走进真实业务场景；开源模型的发布不仅意味着能力升级，也在推动应用范式与产业协作方式的变化。未来——只有在持续提升性能的同时——同步补齐评测体系、合规框架与工程化能力，才能让多模态更稳定地服务于产业需求与更广泛的公共价值。

我国科技企业开源新一代全模态智能模型 实现多场景高效交互

我国科技企业开源新一代全模态智能模型实现多场景高效交互