Cartesia发布Sonic-3语音AI引擎,延迟低于100毫秒
Cartesia的Sonic-3重新定义实时语音AI
人工智能公司Cartesia发布了Sonic-3——其新一代语音AI引擎为实时对话界面设立了新标准。该平台在精准捕捉人类语音模式的同时,实现了前所未有的低于100毫秒延迟。
技术突破
这一突破源于Cartesia采用的状态空间模型(SSM)架构,区别于传统的Transformer模型。此项创新实现了:
- 上下文记忆保留消除重复处理
- 情感语调调节包括笑声和音调变化
- 相比前代模型降低97%延迟

全球语言支持与功能
Sonic-3展现出卓越的多语言能力:
- 支持覆盖全球95%人口的42种语言
- 包含针对区域市场渗透的9种印度方言
- 智能处理缩写词发音(如NASA、FBI)
该平台提供企业级定制服务:
- 10秒语音克隆实现个性化
- 品牌专属声调定制服务 2em;">AI新闻 · 4 分钟阅读 · 2025年10月29日<path fill-rul

