小米发布全球最大的全模态基座模型，能看见东西、听懂话，还能动手做事

小米在3月19日公布了一款名叫Xiaomi MiMo-V2-Omni的全模态基座模型。这个模型能看见东西、听懂话，还能动手做事。雷军把这款模型的早期版本包装成「Healer Alpha」匿名放在全球最大的API聚合平台OpenRouter上，没做宣传就把调用量冲到了前列。它在OpenClaw测评榜单PinchBench上拿了平均分第一，大家都觉得它挺厉害。MiMo-V2-Omni的感知能力很强，被拿来跟国际上的顶尖模型Gemini 3 Pro、Claude Opus 4.6等比过了。音频理解方面，它能识别环境里的声音，还能区分说话的人，连听10个小时的超长音频都没问题，表现甚至超过了Gemini 3 Pro。图像理解上，它能看懂复杂的图表，推理能力也很强。视频理解这块儿，它不光能看画面，还能联合声音一起分析，对事情有很好的预感。除了能理解东西，这个模型还能把任务从头到尾做完。它可以根据环境跨模态地制定计划去做事情，遇到麻烦了能自己改策略。评测结果显示，它在真实环境里干活的本事跟Gemini 3 Pro差不多。经过一周优化后，它的表现更稳了。现在已经开放API服务了，定价是输入0.4美元/百万tokens、输出2美元/百万tokens，开发者可以去指定平台接用。他们还给OpenClaw、OpenCode等五大框架团队的开发者提供了一周的免费接口。这个模型在各种场景里表现都很亮眼。比如在看电影的时候能解读其中的隐喻和感情；听人说很长时间的话也能提炼出主要观点和逻辑。配合OpenClaw框架操作浏览器时，它能像真人一样买东西、做视频、改网页报错。在办公方面，它和金山办公合作接入了WPS Office，只要下指令就能生成高质量的Word、Excel、PDF和PPT。这些功能把AI从只会聊天的机器人变成了能真干活的人。