教程2026-03-13·8 分钟阅读

如何用 Fish Audio API 制作有声书

Fish Audio 是目前最自然的 AI 语音模型之一。本文介绍如何通过 Kitta AI（基于 Fish Audio API 构建）完成一本有声书的完整制作流程。

为什么选择 Fish Audio 制作有声书？

Fish Audio 的 S1 模型在 TTS-Arena2 基准测试中排名第一，以情感控制和自然度著称。对于有声书制作，它有三个关键优势：

声音克隆

使用本人或已授权音频样本创建旁白音色，保持整本书的声音一致性。

情感表达

支持开放域情感描述，让对话场景更生动，不再是机械朗读。

40+ 语言

训练一次声音模型，即可用于多语言版本，轻松制作多语言有声书。

制作流程：5 个步骤

准备参考音频

录制或收集 10–30 秒的清晰音频样本。音频越干净（无背景噪音），克隆效果越好。支持 MP3、WAV、M4A 格式。

在 Kitta AI 创建声音模型

分段处理书稿

将书稿按章节分段，每段建议不超过 1000 字。使用 Kitta AI 的长文本模式或批量模式，系统会自动分段处理。

生成并下载音频

选择克隆好的声音模型，粘贴文本，点击生成。支持批量生成多章节，完成后下载 MP3 文件。

后期处理（可选）

使用 Audacity 或 Adobe Audition 对各章节音频进行音量均衡和拼接，导出最终有声书文件。

提升质量的技巧

✓

参考音频中包含情感变化（不要只用平淡朗读），克隆出的声音表现力更强

✓

对话场景可以在文本中加入情感提示词，如「（激动地）」，Fish Audio 支持自然语言情感控制

✓

长文本建议每段 500–800 字，避免单次生成过长导致质量下降

✓

同一本书的所有章节使用同一个声音模型，保持一致性

FAQ

Fish Audio API 适合制作有声书吗？

Fish Audio API 非常适合有声书制作。它支持声音克隆（只需 10 秒音频样本）、40+ 语言、批量文本处理，以及低延迟生成。Kitta AI 基于 Fish Audio API 构建，提供更简洁的操作界面。

用 Fish Audio 制作有声书需要多少费用？

Fish Audio 提供免费套餐（每月 8000 积分，约 7 分钟音频）。通过 Kitta AI 使用 Fish Audio 技术，免费套餐包含 1000 积分，付费套餐从每月 20000 积分起。

一本 10 万字的有声书需要多少积分？

以 Kitta AI 的标准计费，10 万字约需 10 万积分（1 积分 = 1 字符）。Pro 套餐每月 20000 积分，制作完整有声书建议选择按需充值方案。

立即开始制作你的有声书

Kitta AI 基于 Fish Audio 技术，免费套餐即可体验声音克隆和有声书制作。

免费开始 →