跳转到主要内容

Cartesia发布Sonic-3语音AI引擎,延迟低于100毫秒

Cartesia的Sonic-3重新定义实时语音AI

人工智能公司Cartesia发布了Sonic-3——其新一代语音AI引擎为实时对话界面设立了新标准。该平台在精准捕捉人类语音模式的同时,实现了前所未有的低于100毫秒延迟

技术突破

这一突破源于Cartesia采用的状态空间模型(SSM)架构,区别于传统的Transformer模型。此项创新实现了:

  • 上下文记忆保留消除重复处理
  • 情感语调调节包括笑声和音调变化
  • 相比前代模型降低97%延迟

Image

全球语言支持与功能

Sonic-3展现出卓越的多语言能力:

  • 支持覆盖全球95%人口的42种语言
  • 包含针对区域市场渗透的9种印度方言
  • 智能处理缩写词发音(如NASA、FBI

该平台提供企业级定制服务:

  • 10秒语音克隆实现个性化
  • 品牌专属声调定制服务 2em;">AI新闻 · 4 分钟阅读 · 2025年10月29日<path fill-rul

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

谷歌WAXAL项目助力非洲语言在AI领域发声

谷歌发布了突破性的WAXAL语音数据集,涵盖21种非洲语言。与以往由科技巨头主导的举措不同,非洲机构保留了对这一资源的所有权。凭借超过11,000小时的录音资料,WAXAL旨在解决长期存在的识别问题,同时赋能本地AI发展。多所大学已将其应用于从孕产保健到语言保护等多个项目。

February 12, 2026
AI多样性语音技术非洲创新
News

新基准测试旨在让AI电话通话更显人性化

声网与美团联合推出首个AI外呼行业评估标准VoiceAgentEval。该实用基准测试针对真实商业场景而非实验室环境,涵盖六大业务领域的30个子场景。系统采用真实通话数据,同时评估文本逻辑与语音质量,通过150组模拟对话测试AI表现。初步测试结果已识别出这一新兴领域的顶尖模型。

February 10, 2026
AI通信语音技术客户体验
News

小红书新推AI视频编辑器OpenStoryline:用聊天方式激发创意

中国热门社交平台小红书正在测试一款名为OpenStoryline的创新AI视频编辑工具,或将彻底改变内容创作方式。该工具的对话式界面允许用户通过自然语言指令编辑视频,有望让专业剪辑变得人人可及。虽然仍处于早期测试阶段,但公司暗示这款颠覆性工具最终可能开源。

February 9, 2026
AI视频剪辑小红书OpenStoryline
News

ElevenLabs完成5亿美元巨额融资后估值飙升至110亿美元

语音AI先驱ElevenLabs已成功获得惊人的5亿美元新融资,使其估值飙升至110亿美元——较一年前增长了三倍。红杉资本领投本轮融资,现有支持者大幅增加了持股比例。该公司年经常性收入已达3.3亿美元,计划在全球范围内扩张业务,并从语音技术向能处理文本、视频并执行操作的多模态AI代理转型。

February 5, 2026
人工智能语音技术初创企业融资
News

搜狗输入法AI用户突破1亿,语音识别接近完美

腾讯旗下搜狗输入法迎来重大里程碑,其AI功能用户数已突破1亿。最新版本具备98%的语音识别准确率,每日处理的语音请求量高达20亿次。除技术升级外,此次更新还带来更智能的预测输入和更简洁的界面——证明AI甚至能让我们的键盘变得更实用。

January 27, 2026
AI助手语音技术腾讯产品
News

AI服务员正致电餐厅——你已难辨真假

阿里巴巴的通义千问应用推出了一款AI助手,能如此逼真地致电餐厅预订座位,以至于工作人员都没意识到自己在和机器对话。该功能涵盖从拨号到情感回应的全过程,标志着语音AI的重大飞跃。颇具讽刺的是,部分餐厅如今也开始使用AI接待员——这意味着你的晚餐预订可能很快将由机器人全权安排。

January 26, 2026
语音AI餐饮科技数字助理