小米在3月19日一口气发布了MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS这三款大模型,直接把AI时代的变革节奏给带起来了。北京商报那边的记者陶凤和王天逸报道说,小米这次大动作,不光是技术上有创新,更把他们在人工智能上的积累全给展现出来了。 特别是MiMo-V2-Pro,这可是小米给Agent时代专门准备的旗舰基座模型。它手里有超过1T的参数,光是激活参数就有42B,还用了一种叫混合注意力的新架构,能处理长达1M的上下文。这种超强的处理能力让它在复杂的工作场景里表现得特别好,干活效率和效果都有了大提升。在那个全球权威的ArtificialAnalysis大模型榜单上,它排在第八,国内排第二,算是把国际竞争力给立住了。 小米这次不光是把算力给堆上去,还特别在意把智能应用落地。他们把编程(Coding)和执行任务(Claw)这两个环节给打通了,实现了从技术到应用的全面泛化。 MiMo-V2-Omni就更厉害了,它是个全模态基座模型。小米把文本、视觉和语音这些信息全都揉在一起处理,还用底层架构把“感知”和“行动”深度绑定在一起。这就打破了老模型只能理解、不会行动的老毛病。有了这个设计,它就能无缝地接进各种Agent框架里去,大大降低了门槛,让多模态智能技术发展得更快。 Xiaomi MiMo-V2-TTS则是小米自己研发的语音合成大模型。它用了自家的AudioTokenizer和多码本语音-文本联合建模架构,经过大规模训练后能实现多粒度的风格控制。不管是语气转折还是唱歌的音高节奏,它都能精准还原得跟真人一模一样。 这三款模型的发布,既体现了小米在AI上的持续创新劲儿,也给各行各业的智能化转型提供了硬邦邦的技术支持。随着Agent技术越来越普及、应用场景越来越广,我们完全有理由相信小米在人工智能这块儿会一直冲锋在前头。