阿里巴巴新语音技术:像魔法一样用声音指挥
阿里巴巴的语音革命:说出来就能实现
想象一下告诉你的电脑'让这个声音听起来像个紧张的青少年'或'添加咖啡馆的背景闲聊声'——然后它立刻就能实现。这就是阿里巴巴通义实验室今天发布的新语音技术组合所承诺的。

你的私人声音导演
Fun-CosyVoice3.5不是普通的文本转语音工具。想让你的有声书旁白听起来更有戏剧性?只需说'加点莎士比亚式的风格'。需要客户服务培训音频?告诉它'听起来要有耐心但略带恼怒'。这个多语言高手现在还能理解泰语、印尼语、葡萄牙语和越南语——冷门字符错误减少了近70%。
与此同时,Fun-AudioGen-VD就像浏览器里的好莱坞音效工作室。想象一下:
- '创造一个略带口吃的深沉反派声音,站在大教堂里'
- '制作一个带有森林背景音的儿童故事讲述者'
- '模拟两个机器人在水下的对话'
该系统能处理从细微的声音特点到复杂的环境音效的一切需求。
为何这是颠覆性的改变
对于播客制作者来说,这些工具消除了对昂贵配音演员临时音轨的需求。游戏开发者可以在录音前试听角色声音效果。甚至电影制作人也能在剪辑时快速生成临时对话。
'我们正在消除技术障碍,'通义实验室发言人解释道,'现在创意愿景可以直接转化为音频现实.'
这些模型目前还不完美——极其特定的需求可能仍需调整。但对大多数用户来说,说出他们的音频需求就能实现的时代已经到来。
关键点:
- 自然语言控制: 使用日常短语调整声音和场景
- 多语言精通: 支持13种语言且准确度更高
- 闪电速度: 处理延迟减少35%
- 创意乐园: 自由组合角色、情感和环境

