AI D​A​M​N/阿里巴巴的百灵语音模型现已通晓您的语言——更能感知您的情绪

阿里巴巴的百灵语音模型现已通晓您的语言——更能感知您的情绪

阿里巴巴语音技术突破:具备情感智能的多语言AI

想象一下:仅录制三秒声音样本,就能立即获得一个会说普通话、粤语、日语——甚至饶舌歌词——且能表达快乐或沮丧情绪的AI版本。这已不再是科幻情节。阿里巴巴通义团队通过对百灵模型的重大升级,突破了语音技术的边界。

像母语者般掌握九种语言

升级后的Fun-CosyVoice3模型展现出惊人的多语言能力。Image 在分析简短音频样本后,它能在以下九种语言和十八种方言间无缝切换:

  • 亚洲语言:普通话、粤语、日语
  • 欧洲语言:英语(多种口音)、西班牙语
  • 中国方言:四川话、上海话

"关键在于情感表达范围",阿里巴巴达摩院李伟博士解释道,"先前系统切换语气时听起来很机械。现在的百灵可以用英语表达真实的快乐,下一秒又能用粤语传递紧迫感"。

快于人类反应速度的技术升级

技术指标同样令人印象深刻:

  • 首包延迟降低50%
  • 流式识别响应仅需160毫秒——快于人类反应时间
  • 即使在嘈杂街道等环境中仍保持93%准确率

改进后的Fun-ASR模型不仅能转录音频——还能轻松理解饶舌节奏和混合语句。

即时克隆声音开启创意应用场景

增强的语音克隆功能为内容创作者打开新天地:

  1. 播客主可即时生成多语言版本
  2. 游戏开发者快速制作角色语音
  3. 有声书制作效率大幅提升
  4. 无障碍工具获得自然发音

最棒的是?这些功能都封装在支持本地部署和定制的开源模型中。

核心亮点:

🌍 万能翻译潜力:近乎实时的多语言转换可能彻底改变全球沟通方式。

速度王者:160毫秒响应时间让交互感觉瞬时完成。

🎭 情感智能:AI捕捉到多数文本转语音系统缺失的微妙声线变化。

🔓 开放生态:开发者可在基础模型上构建专业应用方案。