如何用 Fish Audio API 制作有声书
Fish Audio 是目前最自然的 AI 语音模型之一。本文介绍如何通过 Kitta AI(基于 Fish Audio API 构建)完成一本有声书的完整制作流程。
为什么选择 Fish Audio 制作有声书?
Fish Audio 的 S1 模型在 TTS-Arena2 基准测试中排名第一,以情感控制和自然度著称。对于有声书制作,它有三个关键优势:
声音克隆
只需 10 秒音频样本即可克隆任意声音,保持整本书的声音一致性。
情感表达
支持开放域情感描述,让对话场景更生动,不再是机械朗读。
40+ 语言
训练一次声音模型,即可用于多语言版本,轻松制作多语言有声书。
制作流程:5 个步骤
准备参考音频
录制或收集 10–30 秒的清晰音频样本。音频越干净(无背景噪音),克隆效果越好。支持 MP3、WAV、M4A 格式。
在 Kitta AI 创建声音模型
登录 Kitta AI,进入「声音克隆」,上传参考音频,填写声音名称,点击开始克隆。约 1 分钟完成训练。
分段处理书稿
将书稿按章节分段,每段建议不超过 1000 字。使用 Kitta AI 的长文本模式或批量模式,系统会自动分段处理。
生成并下载音频
选择克隆好的声音模型,粘贴文本,点击生成。支持批量生成多章节,完成后下载 MP3 文件。
后期处理(可选)
使用 Audacity 或 Adobe Audition 对各章节音频进行音量均衡和拼接,导出最终有声书文件。
提升质量的技巧
参考音频中包含情感变化(不要只用平淡朗读),克隆出的声音表现力更强
对话场景可以在文本中加入情感提示词,如「(激动地)」,Fish Audio 支持自然语言情感控制
长文本建议每段 500–800 字,避免单次生成过长导致质量下降
同一本书的所有章节使用同一个声音模型,保持一致性
FAQ
Fish Audio API 适合制作有声书吗?
Fish Audio API 非常适合有声书制作。它支持声音克隆(只需 10 秒音频样本)、40+ 语言、批量文本处理,以及低延迟生成。Kitta AI 基于 Fish Audio API 构建,提供更简洁的操作界面。
用 Fish Audio 制作有声书需要多少费用?
Fish Audio 提供免费套餐(每月 8000 积分,约 7 分钟音频)。通过 Kitta AI 使用 Fish Audio 技术,免费套餐包含 1000 积分,付费套餐从每月 20000 积分起。
一本 10 万字的有声书需要多少积分?
以 Kitta AI 的标准计费,10 万字约需 10 万积分(1 积分 = 1 字符)。Pro 套餐每月 20000 积分,制作完整有声书建议选择按需充值方案。