跳转到主要内容

通义实验室发布新一代语音模型,实现类人化响应

通义实验室语音AI突破:会说人话的技术

Image

在语音技术的重大进展中,通义实验室发布了Fun-CosyVoice3.5Fun-AudioGen-VD两款模型,它们能像人类一样自然理解指令。记忆特定命令的时代已经过去——现在你只需告诉系统你的需求。

机器语音中的人性化触感

真正的魔力在于这些模型如何解读请求。想要一个恶棍低声威胁的嗓音?或是愉快的咖啡师接受点单?直接说出来就行。系统会处理其余部分,消除了曾将创作者与强大语音工具隔开的技术术语壁垒。

Image

Fun-CosyVoice3.5带来显著升级:

  • 新增支持泰语、印尼语等四种语言
  • 减少近70%的发音错误
  • 大幅降低处理延迟

其秘诀在于结合了名为DiffRO和GRPO的先进强化学习技术,帮助AI捕捉大多数系统会忽略的细微语音模式。

同时,Fun-AudioGen-VD彻底改变了声音设计:

  • 根据指令调整性别、情绪甚至房间声学效果
  • 从单一嗓音到复杂环境音效皆可创建
  • 特别适合游戏环境或电影配音工作流

超越技术圈层的意义

这项技术的影响远不止于炫酷演示。电影工作室可以即时试制角色嗓音;游戏开发者或许能缩短数周制作周期;甚至虚拟助手很快也能以情感智能而非机械精准度回应。

该技术问世之际,市场需求正呈指数级增长——行业分析师预测,随着消费者追求更自然的数字交互,到2028年语音合成市场规模将翻倍。

关键亮点:

  • 自然指令取代技术参数
  • 生僻词句准确率提升70%
  • 响应速度较前代快35%
  • 新增语言支持扩展全球可用性
  • 情绪范围控制释放创作潜能

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

腾讯新AI工具:仅需描述即可构建游戏世界
News

腾讯新AI工具:仅需描述即可构建游戏世界

腾讯近日开源HY-World2.0,这款3D世界模型能将简单文本提示转化为完全可编辑的游戏环境。相较1.5版本,开发者现在可以即时创建中世纪地牢、未来都市甚至真实场景的数字孪生——所有成果都兼容Unity和Unreal引擎。改进后的算法在呈现惊人真实感的同时,让3D世界构建变得人人皆可上手。

April 16, 2026
3D建模游戏开发AI工具
News

火山引擎发布强大的视频生成API,助力创作者与企业释放创意潜能

火山引擎正式推出Seedance 2.0 API,为企业和个人用户提供前沿的视频生成能力。升级后的模型能处理文本、图像、音频和视频输入,并提升了物理精度和视觉真实感。除技术增强外,公司还为AI生成内容实施了严格的合规措施。行业专家认为,该产品或将彻底改变营销、娱乐和企业视频制作的工作流程。

April 14, 2026
AI视频生成创意科技数字内容创作
火山引擎全面释放Seedance 2.0的API潜能
News

火山引擎全面释放Seedance 2.0的API潜能

火山引擎已全面开放其Seedance 2.0 API服务,为创作者和企业提供了强大的视频制作新工具。该平台的多模态能力现支持文本、图像、音频和视频输入,使复杂的视频创作变得异常简单。早期采用者如导演贾樟柯已展示其创意潜力,企业用户则报告视频工作流程效率提升高达90%。

April 14, 2026
AI视频生成创意科技数字化转型
字节跳动Seeduplex让AI实现人类般听说同步
News

字节跳动Seeduplex让AI实现人类般听说同步

字节跳动推出突破性语音AI系统Seeduplex,实现语音同步处理而非轮流应答。这项全双工技术现已登陆抖音,将打断率降低40%,即使在嘈杂环境中也能准确理解用户。就像与一个永远不会错过节奏的人交谈。

April 9, 2026
语音AI字节跳动AI创新
News

Yi Meng AI 新工具 Octo 以 AI 协同创作重塑叙事方式

Yi Meng AI 发布了突破性的协作叙事工具 'Octo',其创新的 VibeCreate 模式将 AI 重新定义为创意伙伴而非工具,通过文本、图像和音频实现实时多模态协作。目前处于内部测试阶段的 Octo 有望利用 Yi Meng 最新 AI 模型彻底改变故事构思与制作方式。

April 9, 2026
AI 叙事创意科技人机协作
小米OmniVoice:多语言语音合成的颠覆者
News

小米OmniVoice:多语言语音合成的颠覆者

小米新一代Kaldi团队开源了突破性的多语言文本转语音模型OmniVoice,支持600多种语言。其中文词错率低至0.84%,处理速度比实时快40倍,为语音合成树立了新标准。更令人惊叹的是,它仅需3-10秒音频即可克隆声音,甚至能帮助保护濒危语言。

April 9, 2026
语音合成AI创新多语言技术