跳转到主要内容

李沐团队发布Higgs Audio v2,革新语音合成技术

李沐团队发布Higgs Audio v2,革新语音合成技术

著名AI企业家李沐及其Boson.ai团队推出突破性开源文本转语音(TTS)模型Higgs Audio v2。该版本标志着语音合成技术的重大飞跃,提供多语言对话生成、自动节奏调节和声音克隆等创新功能。

多模态能力

Higgs Audio v2以其多模态功能脱颖而出。与传统TTS系统不同,它能在理解上下文的同时处理文本并生成语音。例如,它可以创作歌曲、用特定声线演唱,甚至添加背景音乐——这是TTS技术此前难以实现的壮举。

Image

性能基准测试

该模型基于1000万小时语音数据训练,在各基准测试中表现卓越。根据EmergentTTS-Eval测试结果,Higgs Audio v2在"情感"类别中超越GPT-4o-mini-tts75.7%,在"问答"类别领先55.7%,为传统TTS测试树立了新的行业标准。

Image

技术创新

Higgs Audio v2采用先进数据处理技术:

  • 通过离散音频标记器以每秒25帧的速度将音频信号转化为数字序列
  • 精准捕捉语义与声学特征
  • 依托预训练大语言模型增强语言理解与上下文把握能力
  • 支持零样本声音克隆,仅需少量提示即可适应新任务

Image

实际应用场景

该模型在现实场景中表现优异:

  • 实时语音聊天: 凭借低延迟和高情感表现力,成为虚拟主播与语音助手的理想选择
  • 音频内容创作: 为有声书、互动培训和动态叙事生成自然对话
  • 声音克隆: 复制特定声线,为娱乐和创意产业开辟新可能

代码已在GitHubHugging Face**开源****支持通过GPU版PyTorch或Docker进行本地部署。

核心亮点:

  • Higgs Audio v2开创具备声音克隆与节奏调节的多模态TTS系统
  • 千万小时数据训练使其在关键基准测试中全面领先竞品
  • 先进标记化技术与预训练模型确保高精度与强适应性
  • 开源特性推动实时聊天与内容创作领域的创新

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

日本AI雄心蒙上抄袭指控阴影

乐天集团大肆宣传的'日本最大AI模型'因开发者发现其与中国深度求索模型惊人相似而面临审查。这家科技巨头被指控披露不足和许可证处理存疑,引发了关于AI开发透明度的争论。尽管乐天声称整合了开源元素,但批评者认为该公司将作品作为原创研究呈现已逾越道德界限。

March 19, 2026
AI伦理开源科技争议
News

科技巨头联手应对开源领域AI生成的安全垃圾信息

六家大型科技公司共同出资1250万美元,帮助开源开发者应对大量低质量AI生成的安全报告。这笔资金将支持Linux基金会开发更好的工具来过滤误报,让维护者能够专注于真正的威胁。随着AI让漏洞扫描变得更容易,像cURL这样的项目一直在处理大量不可靠的报告。

March 18, 2026
AI安全开源科技投资
News

科技巨头联手:1250万美元助力开源安全

在一次罕见的团结行动中,Google、Microsoft、OpenAI等科技巨头共同筹集了1250万美元,帮助Linux基金会应对一个日益严重的问题——大量不可靠的AI生成安全报告正在压垮开源维护者。这笔资金将支持过滤这些'AI垃圾报告'的努力,同时保护关键的开源基础设施。此次合作标志着行业在超越竞争利益、建立共享安全标准方面又迈出了一步。

March 18, 2026
开源网络安全人工智能
News

乐天AI因移除许可证信息陷入舆论风波

日本乐天集团因其大肆宣传的AI模型被曝移除开源许可证信息而陷入困境。当技术爱好者发现这一疏漏后,公司迅速做出调整,但其声誉可能已受到持久损害。该事件再次引发关于企业在社区开发技术基础上构建产品时透明度的质疑。

March 18, 2026
AI伦理开源科技丑闻
Manus AI以20分钟应用创建功能让'我的电脑'焕发生机
News

Manus AI以20分钟应用创建功能让'我的电脑'焕发生机

Meta旗下AI平台Manus实现了从云端到桌面的革命性跨越。其全新'我的电脑'功能允许AI代理直接管理文件、自动化任务,甚至能在几分钟内构建应用程序——所有这些操作都在严格的人工监督下确保数据安全。这或将彻底改变我们与设备的交互方式,使AI从助手转变为真正的数字同事。

March 18, 2026
AI生产力工具Meta
港大CLI-Anything工具:一条命令让任意软件变身AI友好型工具
News

港大CLI-Anything工具:一条命令让任意软件变身AI友好型工具

香港大学数据智能实验室发布开源工具CLI-Anything,可将任何软件转换为AI代理友好的命令行界面。这一突破性技术解决了UI自动化不可靠的痛点,为开发者提供了将GIMP、Blender和LibreOffice等专业工具与AI系统集成的强大方案。该项目发布后迅速获得广泛关注,短时间内即在GitHub上斩获超过17,000颗星标。

March 17, 2026
人工智能开发软件自动化开源