小米mimo-v2-tts 语音合成大模型

3月19日，小米放出了全新的MiMo-V2-TTS语音合成大模型，这东西能说会道还能唱歌，河南话、粤语这些方言也都不在话下。其实吧，在这个模型出来之前，小米早就推出了小米MiMo-V2-Omni，这玩意儿能让人懂得世界。这次发布的小米MiMo-V2-TTS，是给Agent用上了语音这项技能。为了能发出好听的声音，他们搞了个自研的Audio Tokenizer，再加上一种多码本的联合建模技术。他们用了上百亿小时的语音数据去训练，还用了强化学习来调整。这样一来，不管是大环境的整体风格，还是局部的情绪波动，都能给人一种自然的感觉。要是要唱歌的话，连音高和节奏都能把握得很准。为了把这个模型的潜力全都挖出来，小米还用了多维度强化学习来兼顾稳定性和表现力。在前期训练的时候，他们让模型学了很多文本和语音的对应关系。这样一来，模型就能自动识别出标点符号、语气词这些东西，不需要用户动手干预就能把这些变成合适的声音。除了普通的说话之外，MiMo-V2-TTS还支持好几种方言，比如东北话、四川话、河南话、粤语还有台湾腔。它能像人一样扮演不同的角色说话，唱出来的歌质量也很高。虽说这是个大进展吧，但小米说这可不是终点。以后他们还要把支持的语种扩大到中文和英文之外的其他语言上。另外他们还打算让MiMo-V2-Omni这个多模态理解能力跟这个模型深度融合一下，让Agent不光能看懂世界、理解世界，还能用充满感情的人类声音去讲述这个世界。