面壁智能正式开源了新一代全模态ai 旗舰模型minicpm-o 4.5

面壁智能正式开源了新一代全模态 AI 旗舰模型 MiniCPM-o 4.5,这是全球首个真正能实现“即时自由对话”的大模型。大家熟悉的MiniCPM系列这次有了全新升级,参数仅用9B,就能把全模态的表现推到SOTA级别。最关键的是,这个模型在不占用太多显存的情况下,响应速度也变快了,能效比得到了很大提升。IT之家昨天报道了这件事。 它的核心设计就是实现了边看、边听、还能主动说话的全模态能力,彻底打破了传统对讲机那种死板的对话模式。只要在GitHub和Hugging Face上开源,用户就能上手体验。为了让大家用得更省心,MiniCPM-o 4.5还基于统一的系统软件栈FlagOS,把跨平台能力做得非常强。这就意味着无论是天数智芯、华为昇腾,还是平头哥、海光、沐曦这些芯片上跑起来,端到端的推理性能都能获得提升。 这个小钢炮最大的特点就是高密度,只用9B参数就把视觉理解、文档解析、语音生成这些能力全都拉满了。以前那种长语音合成音色不统一、语气生硬的毛病也被它解决了。在声音克隆方面也很有意思,给它几秒的样本就能定制新音色,甚至还能让AI模仿这个声音去扮演角色对话。MiniCPM-o 4.5用的是端到端架构,还加入了全双工机制和主动交互设计。这一套组合拳打下来,在音频输出时会自动挑选最适合的语气和音色。IT之家还附上了开源地址:https://github.com/OpenBMB/MiniCPM-o