小米发布全球最大的全模态基座模型,能看见东西、听懂话,还能动手做事

小米在3月19日公布了一款名叫Xiaomi MiMo-V2-Omni的全模态基座模型。这个模型能看见东西、听懂话,还能动手做事。雷军把这款模型的早期版本包装成「Healer Alpha」匿名放在全球最大的API聚合平台OpenRouter上,没做宣传就把调用量冲到了前列。它在OpenClaw测评榜单PinchBench上拿了平均分第一,大家都觉得它挺厉害。MiMo-V2-Omni的感知能力很强,被拿来跟国际上的顶尖模型Gemini 3 Pro、Claude Opus 4.6等比过了。音频理解方面,它能识别环境里的声音,还能区分说话的人,连听10个小时的超长音频都没问题,表现甚至超过了Gemini 3 Pro。图像理解上,它能看懂复杂的图表,推理能力也很强。视频理解这块儿,它不光能看画面,还能联合声音一起分析,对事情有很好的预感。 除了能理解东西,这个模型还能把任务从头到尾做完。它可以根据环境跨模态地制定计划去做事情,遇到麻烦了能自己改策略。评测结果显示,它在真实环境里干活的本事跟Gemini 3 Pro差不多。经过一周优化后,它的表现更稳了。现在已经开放API服务了,定价是输入0.4美元/百万tokens、输出2美元/百万tokens,开发者可以去指定平台接用。他们还给OpenClaw、OpenCode等五大框架团队的开发者提供了一周的免费接口。 这个模型在各种场景里表现都很亮眼。比如在看电影的时候能解读其中的隐喻和感情;听人说很长时间的话也能提炼出主要观点和逻辑。配合OpenClaw框架操作浏览器时,它能像真人一样买东西、做视频、改网页报错。在办公方面,它和金山办公合作接入了WPS Office,只要下指令就能生成高质量的Word、Excel、PDF和PPT。这些功能把AI从只会聊天的机器人变成了能真干活的人。