阿里巴巴新AI仅需三秒即可模仿任何声音
阿里云在语音AI技术领域取得重大突破
在合成语音技术的重大飞跃中,阿里云Qwen团队推出了两款强大的新型AI模型,或将彻底改变我们创建和交互人工语音的方式。
按需定制声音
首款模型Qwen3-TTS-VD-Flash允许用户仅通过文本描述生成完全独特的声音。想要一个"适合活力广告的中年男低音"?AI可以精准呈现,包括指定的说话方式、情感语调和节奏。
"这不仅关乎音高或语速,"阿里云语音技术负责人李伟博士解释道,"我们为创作者提供了前所未有的嗓音个性控制——从微妙的迟疑到戏剧性的转调。"
早期测试表明,该模型在质量和灵活性上都优于OpenAI最近发布的GPT-4o mini-tts API。
即时声音克隆
真正的亮点是Qwen3-TTS-VC-Flash,它仅需三秒音频即可克隆任何声音。这比大多数竞争对手所需时间快得多。更令人惊叹的是?克隆后的声音可以用十种不同语言自然说话。
想象录制你早晨的咖啡订单后,用完全相同的声音以西班牙语或日语朗读有声书。这对内容本地化的影响将是革命性的。
超越人类语音
这些模型不仅限于人类声音:
- 能以惊人准确度模仿动物叫声
- 从嘈杂录音中提取清晰人声
- 自然处理复杂技术文本
- 在长篇叙述中保持角色嗓音一致性
该技术已通过阿里云API开放使用,开发者可在Hugging Face上体验演示版本。
关键亮点:
- 🎙️ 嗓音设计:通过文本描述创建定制合成声音
- ⚡ 闪电克隆:仅需3秒音频即可复制任何嗓音
- 🌍 多语言:生成的声音可流利使用10种语言
- 🏆 卓越性能:优于Elevenlabs等领先竞争对手
- 🛠️ 即刻可用:可通过阿里云API和Hugging Face演示访问





