教程2026-03-13·8 分钟阅读

如何用 Fish Audio API 制作有声书

Fish Audio 是目前最自然的 AI 语音模型之一。本文介绍如何通过 Kitta AI(基于 Fish Audio API 构建)完成一本有声书的完整制作流程。

为什么选择 Fish Audio 制作有声书?

Fish Audio 的 S1 模型在 TTS-Arena2 基准测试中排名第一,以情感控制和自然度著称。对于有声书制作,它有三个关键优势:

声音克隆

只需 10 秒音频样本即可克隆任意声音,保持整本书的声音一致性。

情感表达

支持开放域情感描述,让对话场景更生动,不再是机械朗读。

40+ 语言

训练一次声音模型,即可用于多语言版本,轻松制作多语言有声书。

制作流程:5 个步骤

1

准备参考音频

录制或收集 10–30 秒的清晰音频样本。音频越干净(无背景噪音),克隆效果越好。支持 MP3、WAV、M4A 格式。

2

在 Kitta AI 创建声音模型

登录 Kitta AI,进入「声音克隆」,上传参考音频,填写声音名称,点击开始克隆。约 1 分钟完成训练。

3

分段处理书稿

将书稿按章节分段,每段建议不超过 1000 字。使用 Kitta AI 的长文本模式或批量模式,系统会自动分段处理。

4

生成并下载音频

选择克隆好的声音模型,粘贴文本,点击生成。支持批量生成多章节,完成后下载 MP3 文件。

5

后期处理(可选)

使用 Audacity 或 Adobe Audition 对各章节音频进行音量均衡和拼接,导出最终有声书文件。

提升质量的技巧

参考音频中包含情感变化(不要只用平淡朗读),克隆出的声音表现力更强

对话场景可以在文本中加入情感提示词,如「(激动地)」,Fish Audio 支持自然语言情感控制

长文本建议每段 500–800 字,避免单次生成过长导致质量下降

同一本书的所有章节使用同一个声音模型,保持一致性

FAQ

Fish Audio API 适合制作有声书吗?

Fish Audio API 非常适合有声书制作。它支持声音克隆(只需 10 秒音频样本)、40+ 语言、批量文本处理,以及低延迟生成。Kitta AI 基于 Fish Audio API 构建,提供更简洁的操作界面。

用 Fish Audio 制作有声书需要多少费用?

Fish Audio 提供免费套餐(每月 8000 积分,约 7 分钟音频)。通过 Kitta AI 使用 Fish Audio 技术,免费套餐包含 1000 积分,付费套餐从每月 20000 积分起。

一本 10 万字的有声书需要多少积分?

以 Kitta AI 的标准计费,10 万字约需 10 万积分(1 积分 = 1 字符)。Pro 套餐每月 20000 积分,制作完整有声书建议选择按需充值方案。

立即开始制作你的有声书

Kitta AI 基于 Fish Audio 技术,免费套餐即可体验声音克隆和有声书制作。

免费开始 →