产品发布2026-03-02·8分钟

Kitta AI S2 模型发布：AI语音合成进入2.0时代

更自然的情感表达、更精细的控制能力、更低的延迟——Kitta AI S2开启AI语音新纪元

Kitta AI 即将发布全新一代 S2 模型，这是继 S1 之后的一次重大飞跃。S2 在情感控制、多说话人支持和延迟优化上实现了全面突破，标志着AI语音合成正式进入2.0时代。

为什么需要 S2？AI语音的下一个跃迁

过去一年，Kitta AI 凭借 S1 模型成为全球第二大AI语音平台，积累了350万用户和110万UGC声音模型，实现了1000万美元ARR。S1作为世界首个支持自然语言情感控制的TTS模型，已经证明了端到端语音建模的巨大潜力。

然而，S1只是起点。我们正进入AI Voice 2.0的技术爆发期——从传统的逐字逐句的播报式语音，进化到具备真实情感、交互式、有灵魂的AI声音。S2正是这一变革的核心载体。

S2 核心升级：三大维度全面突破

更精细的情感控制

S2实现了开放域情感标注，从简单的"高兴"、"悲伤"到复杂的"带着愤怒和悲伤"等混合情绪，都能精准表达。这得益于我们自研的全球领先情绪标注ASR模型，让预训练数据天然携带准确的情感标签。

原生多说话人支持

S2架构天然支持多说话人场景，每个片段都带有精准的说话人标签（speaker tag）。无论是多人播客、有声书对白还是游戏NPC对话，都能实现自然流畅的多角色切换。

超低延迟

基于端到端架构，S2理论上只需第一个token生成完就可以开始音频解码，延迟可压缩到极致。我们还将发布去掉Vocoder的全新模型，实现从文本到波形的完整端到端建模，有望将延迟降至30～50毫秒。

S2 模型矩阵：为不同场景量身定制

Kitta AI不追求单一大模型，而是打造针对不同商业场景的模型矩阵：

S2 Pro

旗舰内容生成模型，专为追求极致声音质量和情感表达力的场景设计。适用于有声书、播客、影视配音、ASMR等内容创作，在自然度和表现力上达到新高度。

S2 Flash

4B参数企业级模型，专为实时客服对话场景优化。拥有更低的延迟和更高的稳定性，是AI陪伴社交、实时语音客服、销售机器人和教育场景的理想选择。

技术突破：数据驱动的革命

S2的核心改进不是来自模型结构变化，而是数据工程的全面重构。我们构建了业界领先的数据处理管线：

自研情绪标注ASR模型：全球情绪标注精度第一，能准确识别和标注语音中的情感、副语言（笑声、停顿、强调等）信息。

声音分离模型：从嘈杂的多人对话中准确分离每个说话人的声音，保留传统流程中会被丢弃的高表现力"脏数据"。

RLHF强化学习管线：结合线上用户反馈数据构建偏好数据集，训练Reward Model，让模型持续优化。Kitta AI是业界唯一建立完整live RLHF做audio preference alignment的语音平台。

全球Native Speaker标注团队：专门组建的多语种母语标注团队，确保数据的正确性和自然性。

架构优势：端到端是未来

Kitta AI S2采用端到端自回归架构，将语义信息和声学信息统一建模。相比传统级联方案（文本→语义token→声学特征→波形），端到端方案具有三大优势：

✓

表现力更强：语义和声学信息联合建模，天然捕捉更丰富的韵律和情感变化。

✓

延迟更低：无需等待中间模块处理，从第一个token即可开始解码。

✓

天然多说话人：架构原生支持多说话人场景，无需额外模块处理说话人切换。

这也是千问TTS、SESAME等新一代模型不约而同选择的架构方向。Kitta AI在这条路线上拥有最久的工程积累和数据优势。

开源承诺：S2将完全开源

S2模型将完全开源。继S1 Mini开源后，Kitta AI将继续践行开源理念，让开发者可以本地部署、测试和集成。超过10万GitHub Stars的开源社区将率先体验S2的强大能力。

应用场景：释放AI语音的无限可能

🎙️

内容创作

有声书、播客、视频配音、ASMR——S2 Pro为专业创作者提供接近真人的情感表达。

💬

AI陪伴与社交

为Character.AI等AI社交应用提供有温度的声音，让AI对话不再冰冷。

🎮

游戏与娱乐

NPC对话、角色配音、VTuber——多说话人支持让游戏世界更加生动。

📞

实时语音客服

S2 Flash的低延迟和高稳定性，完美适配客服、销售和教育场景。

🌍

跨语言内容

支持13+语言的声音克隆，一次训练多语言使用，轻松创作全球化内容。

S1 vs S2：一目了然的升级

特性	S1	S2
情感控制	基础情感标签	开放域情感描述 + 混合情绪
多说话人	单说话人为主	原生多说话人支持
延迟	标准	超低延迟（30-50ms目标）
数据管线	第一代	全面重构 + 自研ASR
后训练	基础RLHF	Live RLHF + 多维Reward Model
开源	S1 Mini开源	S2完全开源
模型矩阵	单一模型	Pro + Flash双版本

发布时间线

3月10日

2026

Kitta AI S2模型将于2026年3月10日正式上线。届时S2 Pro和S2 Flash将同步开放使用，开发者可通过API接入或在Kitta AI平台直接体验。开源版本也将在上线后推出。

立即注册Kitta AI账号，第一时间体验S2模型的强大能力。