阿里巴巴新AI语音几乎以假乱真
阿里巴巴发布新一代文本转语音技术
阿里云通过Qwen3-TTS模型将合成语音提升至新高度,其提供的自然音效模糊了人机界限。该系统拥有49种独特音色风格——从舒缓的旁白到活泼的客服代表——皆可一键调用。

打破语言壁垒
Qwen3-TTS的突出优势在于卓越的语言灵活性。该模型能以惊人真实度处理十种语言及包括粤语和四川话在内的九种汉语方言。上海教师已开始使用"一键朗读"插件将教材转换为带有地方口音的生动音频课程。
"系统不仅转换文本,"阿里巴巴发言人解释道,"它理解语境、自然调整语调,甚至像人类说话者那样插入恰当停顿。"这种复杂处理方法使该技术获得4.53分(满分5分)的平均意见得分,远超行业标准。
技术优势
测试数据极具说服力。在与主流商业系统的严格对比中:
- 英语单词错误率降至仅2.8%
- 中文准确率提升至惊人的1.9%错误率 这些数据相较Azure TTS等竞品有显著提升。
普惠创新
阿里巴巴正降低这项强大工具的使用门槛:
- 开发者每月可获100万字符免费额度
- 付费方案起价仅¥0.80/万字符 用户现可通过阿里云控制台直接集成该模型。
未来展望
公司透露了明年年初的重大更新:
- 仅需10秒样本音频即可实现声音克隆
- 超高保真度的80kHz采样版本 这些升级或将彻底改变有声书制作和虚拟偶像内容生产。
当合成语音与真人发声难以区分时,Qwen3-TTS既代表着技术突破,也对AWS和Azure等传统巨头构成挑战。
核心亮点:
- 49种音色风格覆盖多样化场景
- 支持10种语言+9种汉语方言
- 比主流商业方案准确率高24%
- 免费层每月提供100万字符额度
- 声音克隆功能将于2025年Q1上线



