小米 MiMo-V2-TTS:文本驱动的高表达 TTS
从自由文本风格指令到非语言事件与演唱能力:MiMo-V2-TTS 把“表达”做成了真正的语音生成能力。
为什么 MiMo 不只是传统 TTS?
自由文本风格指令
用自然语言描述情绪、语速、音色质感与表演意图;模型会把描述解析为生成方式。
上下文情绪与韵律推断
不只是“贴标签”,而是根据文本语义与语境调整语调、节奏与表达。
非语言事件更自然
停顿、犹豫、叹气、咳嗽、笑声等“表演层信息”可以融入生成过程。
同一模型支持演唱
官方强调具备演唱/唱歌能力,并在同一模型中完成说话与唱歌生成。
如果你的站点核心是“配音工作流”,那么 MiMo 的价值就在于:你可以把“情感与表演细节”写进文本,而不是依赖下拉框。
如何写风格指令(可直接复用到你的工作流)
建议你把风格描述拆成三块:情绪/语速/表演强度 + 声音质感 +(可选)非语言事件。
快速示例
生气:语速偏快,试图压住怒火;多一点短停连与呼气;句末不要爆发。
耳语/轻声
悄悄话:贴近耳语,语速慢,声音更轻;带轻微停顿与“短促笑一下”(不夸张)。
加入非语言事件
我就知道……(长叹一口气)你又把事情搞砸了。(停顿两秒)不过没关系,我们重新来。
把这些指令作为你站内“风格模板”。当你未来接入 MiMo 时,只需要把模板映射到 MiMo 对应的字段或控制方式即可。
接入/产品化:我们建议的映射思路
1) 新增 MiMo 作为 provider/model
在你的模型配置中增加 `provider=mimo`(以及对应的模型标识),让用户可以从模型选择器中选中 MiMo。
2) 把“自由风格指令”统一成你的输入字段
如果你现在已经有 `emotion/language/speed/volume`,就用“拼接策略”生成 MiMo 的风格描述;或者新增一个“stylePrompt”字段走直通逻辑。
3) 在计费/配额里按可用字符与任务大小治理
不同 provider 的生成成本不同。建议先按字符长度或估算时长建立计费系数,再根据实际生成结果逐步校准。
4) 用 FAQ/示例降低学习成本
SEO 流量进入后,最重要的是“可复制的写法”。在页面给出可用示例、标记解释与常见问题。
FAQ
MiMo-V2-TTS 的风格控制方式是什么?
它强调用“自由文本风格指令”来描述语音的情绪、语速、音色质感和表演方式,而不是只选一个固定的情绪标签。
它能生成停顿、呼吸、咳嗽、笑声等非语言事件吗?
官方页面展示了用文本标记来引导停顿、犹豫、叹气、咳嗽、笑声等非语言事件,从而让语音更自然、更有表演张力。
MiMo-V2-TTS 支持演唱/唱歌能力吗?
官方介绍它具备演唱/唱歌合成能力,并且在同一模型中完成说话与演唱生成。
鱼声配音工具站什么时候支持 MiMo-V2-TTS?
我们正在规划 provider 对接、字段映射与计费/额度治理。建议你关注文档与更新公告;同时你也可以先把本文的“风格指令写法”用于构建自己的 prompt 规范。