阿里巴巴新语音技术:如魔法般用声音指挥音效
阿里巴巴语音技术突破:说出你想要的音效
想象一下对你的电脑说"让这个声音听起来像位自信的教授"或"创造带有远处爆炸声的战场音效"——然后立刻实现。这正是阿里巴巴通义实验室新推出的语音生成模型所承诺的愿景,它们正在将科幻变为现实。

您的声音,您做主
团队发布了两款专业工具:
Fun-CosyVoice3.5:多语言大师
这款升级版模型理解语音指令就像资深演员理解导演要求:
- 自然语言控制:说出"放慢语速并加入感情"即可即时调整
- 全球覆盖:现可精准处理泰语、印尼语等13种语言
- 精度提升:生僻字错误率降低近70%
- 速度之王:首次响应延迟减少35%,对实时交互至关重要
Fun-AudioGen-VD:声音建筑师
将其视为您的专属拟音师:
- 角色塑造:可指定年龄、口音甚至"沙哑但欢快"的音色
- 情感深度:能捕捉"外表平静内心紧张"等微妙状态
- 沉浸环境:通过空间音效叠加从咖啡馆到大教堂的背景噪音
其影响令人震撼。播客主无需昂贵录音室即可优化旁白;游戏开发者可能在午餐时间就能完成角色配音原型;电影剪辑师在预订高价录音前就能试验氛围音效。
通义实验室团队强调这些工具旨在实现音频制作民主化。正如一位开发者所言:"我们正在消除技术壁垒,让创作者专注于真正重要的东西——他们的愿景。"
这些模型目前正与精选合作伙伴进行测试,预计今年晚些时候广泛发布。
核心要点:
- 两款新AI模型响应自然语言语音指令
- Fun-CosyVoice3.5专精13种语言的语音表达
- Fun-AudioGen-VD可创建包含角色和环境的完整音频场景
- 潜在应用涵盖娱乐、教育和客服领域
- 标志着专业音频工具普及化的重大飞跃

