TTS 模型指南2026-03-19·6 分钟阅读

小米 MiMo-V2-TTS：文本驱动的高表达 TTS

从自由文本风格指令到非语言事件与演唱能力：MiMo-V2-TTS 把“表达”做成了真正的语音生成能力。

查看官方介绍 →去 API Playground 看请求示例 →

为什么 MiMo 不只是传统 TTS？

自由文本风格指令

用自然语言描述情绪、语速、音色质感与表演意图；模型会把描述解析为生成方式。

上下文情绪与韵律推断

不只是“贴标签”，而是根据文本语义与语境调整语调、节奏与表达。

非语言事件更自然

停顿、犹豫、叹气、咳嗽、笑声等“表演层信息”可以融入生成过程。

同一模型支持演唱

官方强调具备演唱/唱歌能力，并在同一模型中完成说话与唱歌生成。

如果你的站点核心是“配音工作流”，那么 MiMo 的价值就在于：你可以把“情感与表演细节”写进文本，而不是依赖下拉框。

如何写风格指令（可直接复用到你的工作流）

建议你把风格描述拆成三块：情绪/语速/表演强度 + 声音质感 +（可选）非语言事件。

快速示例

生气：语速偏快，试图压住怒火；多一点短停连与呼气；句末不要爆发。

耳语/轻声

悄悄话：贴近耳语，语速慢，声音更轻；带轻微停顿与“短促笑一下”（不夸张）。

加入非语言事件

我就知道……（长叹一口气）你又把事情搞砸了。（停顿两秒）不过没关系，我们重新来。

把这些指令作为你站内“风格模板”。当你未来接入 MiMo 时，只需要把模板映射到 MiMo 对应的字段或控制方式即可。

接入/产品化：我们建议的映射思路

1) 新增 MiMo 作为 provider/model

在你的模型配置中增加 `provider=mimo`（以及对应的模型标识），让用户可以从模型选择器中选中 MiMo。

2) 把“自由风格指令”统一成你的输入字段

如果你现在已经有 `emotion/language/speed/volume`，就用“拼接策略”生成 MiMo 的风格描述；或者新增一个“stylePrompt”字段走直通逻辑。

3) 在计费/配额里按可用字符与任务大小治理

不同 provider 的生成成本不同。建议先按字符长度或估算时长建立计费系数，再根据实际生成结果逐步校准。

4) 用 FAQ/示例降低学习成本

SEO 流量进入后，最重要的是“可复制的写法”。在页面给出可用示例、标记解释与常见问题。

FAQ

MiMo-V2-TTS 的风格控制方式是什么？

它强调用“自由文本风格指令”来描述语音的情绪、语速、音色质感和表演方式，而不是只选一个固定的情绪标签。

它能生成停顿、呼吸、咳嗽、笑声等非语言事件吗？

官方页面展示了用文本标记来引导停顿、犹豫、叹气、咳嗽、笑声等非语言事件，从而让语音更自然、更有表演张力。

MiMo-V2-TTS 支持演唱/唱歌能力吗？

官方介绍它具备演唱/唱歌合成能力，并且在同一模型中完成说话与演唱生成。

鱼声配音工具站什么时候支持 MiMo-V2-TTS？

我们正在规划 provider 对接、字段映射与计费/额度治理。建议你关注文档与更新公告；同时你也可以先把本文的“风格指令写法”用于构建自己的 prompt 规范。