产品发布2026-03-02·8分钟

Kitta AI S2 模型发布:AI语音合成进入2.0时代

更自然的情感表达、更精细的控制能力、更低的延迟——Kitta AI S2开启AI语音新纪元

Kitta AI 即将发布全新一代 S2 模型,这是继 S1 之后的一次重大飞跃。S2 在情感控制、多说话人支持和延迟优化上实现了全面突破,标志着AI语音合成正式进入2.0时代。

为什么需要 S2?AI语音的下一个跃迁

过去一年,Kitta AI 凭借 S1 模型成为全球第二大AI语音平台,积累了350万用户和110万UGC声音模型,实现了1000万美元ARR。S1作为世界首个支持自然语言情感控制的TTS模型,已经证明了端到端语音建模的巨大潜力。

然而,S1只是起点。我们正进入AI Voice 2.0的技术爆发期——从传统的逐字逐句的播报式语音,进化到具备真实情感、交互式、有灵魂的AI声音。S2正是这一变革的核心载体。

S2 核心升级:三大维度全面突破

1

更精细的情感控制

S2实现了开放域情感标注,从简单的"高兴"、"悲伤"到复杂的"带着愤怒和悲伤"等混合情绪,都能精准表达。这得益于我们自研的全球领先情绪标注ASR模型,让预训练数据天然携带准确的情感标签。

2

原生多说话人支持

S2架构天然支持多说话人场景,每个片段都带有精准的说话人标签(speaker tag)。无论是多人播客、有声书对白还是游戏NPC对话,都能实现自然流畅的多角色切换。

3

超低延迟

基于端到端架构,S2理论上只需第一个token生成完就可以开始音频解码,延迟可压缩到极致。我们还将发布去掉Vocoder的全新模型,实现从文本到波形的完整端到端建模,有望将延迟降至30~50毫秒。

S2 模型矩阵:为不同场景量身定制

Kitta AI不追求单一大模型,而是打造针对不同商业场景的模型矩阵:

S2 Pro

旗舰内容生成模型,专为追求极致声音质量和情感表达力的场景设计。适用于有声书、播客、影视配音、ASMR等内容创作,在自然度和表现力上达到新高度。

S2 Flash

4B参数企业级模型,专为实时客服对话场景优化。拥有更低的延迟和更高的稳定性,是AI陪伴社交、实时语音客服、销售机器人和教育场景的理想选择。

技术突破:数据驱动的革命

S2的核心改进不是来自模型结构变化,而是数据工程的全面重构。我们构建了业界领先的数据处理管线:

自研情绪标注ASR模型:全球情绪标注精度第一,能准确识别和标注语音中的情感、副语言(笑声、停顿、强调等)信息。

声音分离模型:从嘈杂的多人对话中准确分离每个说话人的声音,保留传统流程中会被丢弃的高表现力"脏数据"。

RLHF强化学习管线:结合线上用户反馈数据构建偏好数据集,训练Reward Model,让模型持续优化。Kitta AI是业界唯一建立完整live RLHF做audio preference alignment的语音平台。

全球Native Speaker标注团队:专门组建的多语种母语标注团队,确保数据的正确性和自然性。

架构优势:端到端是未来

Kitta AI S2采用端到端自回归架构,将语义信息和声学信息统一建模。相比传统级联方案(文本→语义token→声学特征→波形),端到端方案具有三大优势:

表现力更强:语义和声学信息联合建模,天然捕捉更丰富的韵律和情感变化。

延迟更低:无需等待中间模块处理,从第一个token即可开始解码。

天然多说话人:架构原生支持多说话人场景,无需额外模块处理说话人切换。

这也是千问TTS、SESAME等新一代模型不约而同选择的架构方向。Kitta AI在这条路线上拥有最久的工程积累和数据优势。

开源承诺:S2将完全开源

S2模型将完全开源。继S1 Mini开源后,Kitta AI将继续践行开源理念,让开发者可以本地部署、测试和集成。超过10万GitHub Stars的开源社区将率先体验S2的强大能力。

应用场景:释放AI语音的无限可能

🎙️

内容创作

有声书、播客、视频配音、ASMR——S2 Pro为专业创作者提供接近真人的情感表达。

💬

AI陪伴与社交

为Character.AI等AI社交应用提供有温度的声音,让AI对话不再冰冷。

🎮

游戏与娱乐

NPC对话、角色配音、VTuber——多说话人支持让游戏世界更加生动。

📞

实时语音客服

S2 Flash的低延迟和高稳定性,完美适配客服、销售和教育场景。

🌍

跨语言内容

支持13+语言的声音克隆,一次训练多语言使用,轻松创作全球化内容。

S1 vs S2:一目了然的升级

特性S1S2
情感控制基础情感标签开放域情感描述 + 混合情绪
多说话人单说话人为主原生多说话人支持
延迟标准超低延迟(30-50ms目标)
数据管线第一代全面重构 + 自研ASR
后训练基础RLHFLive RLHF + 多维Reward Model
开源S1 Mini开源S2完全开源
模型矩阵单一模型Pro + Flash双版本

发布时间线

3月10日
2026

Kitta AI S2模型将于2026年3月10日正式上线。届时S2 Pro和S2 Flash将同步开放使用,开发者可通过API接入或在Kitta AI平台直接体验。开源版本也将在上线后推出。

立即注册Kitta AI账号,第一时间体验S2模型的强大能力。