小米mimo-v2-tts 语音合成大模型

3月19日,小米放出了全新的MiMo-V2-TTS语音合成大模型,这东西能说会道还能唱歌,河南话、粤语这些方言也都不在话下。其实吧,在这个模型出来之前,小米早就推出了小米MiMo-V2-Omni,这玩意儿能让人懂得世界。这次发布的小米MiMo-V2-TTS,是给Agent用上了语音这项技能。 为了能发出好听的声音,他们搞了个自研的Audio Tokenizer,再加上一种多码本的联合建模技术。他们用了上百亿小时的语音数据去训练,还用了强化学习来调整。这样一来,不管是大环境的整体风格,还是局部的情绪波动,都能给人一种自然的感觉。要是要唱歌的话,连音高和节奏都能把握得很准。 为了把这个模型的潜力全都挖出来,小米还用了多维度强化学习来兼顾稳定性和表现力。在前期训练的时候,他们让模型学了很多文本和语音的对应关系。这样一来,模型就能自动识别出标点符号、语气词这些东西,不需要用户动手干预就能把这些变成合适的声音。 除了普通的说话之外,MiMo-V2-TTS还支持好几种方言,比如东北话、四川话、河南话、粤语还有台湾腔。它能像人一样扮演不同的角色说话,唱出来的歌质量也很高。 虽说这是个大进展吧,但小米说这可不是终点。以后他们还要把支持的语种扩大到中文和英文之外的其他语言上。另外他们还打算让MiMo-V2-Omni这个多模态理解能力跟这个模型深度融合一下,让Agent不光能看懂世界、理解世界,还能用充满感情的人类声音去讲述这个世界。