阿里巴巴新AI语音技术可在数秒内克隆声音
阿里巴巴突破性推出闪电级语音AI

阿里巴巴研究团队刚刚开源了可能是目前响应速度最快的文本转语音系统。Qwen3-TTS并非传统的机械音生成器——它仅需听取3秒音频就能克隆人声,并让该声音流畅地说出十种不同语言。
快于人类反应时间
真正的魔力在于其响应速度。凭借97毫秒延迟,其反应速度比人类平均眨眼时间(约100-150毫秒)更快。这种速度源于其独特的双轨架构,与传统系统的语音处理方式截然不同。当老旧技术可能出现卡顿时,Qwen3-TTS几乎能在接收文本输入后立即开始发声。
一种声音,多种语言
想象录制你说"你好"的3秒音频后,就能听到相同的声线完美地用日语或德语发表演讲——这正是该系统实现的功能。克隆声音在适应新语言时能保持原始特征,包括四川话等中国方言的准确演绎。
无需录音棚定制声线
除克隆外,创作者可通过简单指令设计全新声线:
- "讲睡前故事的祖父般嗓音"
- "充满活力的体育解说员"
- "舒缓的冥想引导者"
系统会自动调整语调、情感和语速。这将彻底改变有声书制作模式,单个叙述者即可逼真演绎整个角色阵容。
双版本满足不同需求
团队发布两种模型规格:
- 17亿参数版:云端应用的最高质量选择
- 6亿参数版:移动设备的轻量级选项
两个模型均在GitHub和Hugging Face平台开放下载,支持完整定制功能。
该技术显著降低了开发者创建多语言语音助手、互动娱乐和全球无障碍内容的门槛。
核心亮点:
- 仅需3秒音频即可克隆声线
- 用原始音色流畅表达10+种语言
- 响应速度快于人类眨眼(97毫秒延迟)
- 通过文字描述创造定制声线
- 提供云端版与移动端适配版本

