跳转到主要内容

李沐团队发布Higgs Audio v2,革新语音合成技术

李沐团队发布Higgs Audio v2,革新语音合成技术

著名AI企业家李沐及其Boson.ai团队推出突破性开源文本转语音(TTS)模型Higgs Audio v2。该版本标志着语音合成技术的重大飞跃,提供多语言对话生成、自动节奏调节和声音克隆等创新功能。

多模态能力

Higgs Audio v2以其多模态功能脱颖而出。与传统TTS系统不同,它能在理解上下文的同时处理文本并生成语音。例如,它可以创作歌曲、用特定声线演唱,甚至添加背景音乐——这是TTS技术此前难以实现的壮举。

Image

性能基准测试

该模型基于1000万小时语音数据训练,在各基准测试中表现卓越。根据EmergentTTS-Eval测试结果,Higgs Audio v2在"情感"类别中超越GPT-4o-mini-tts75.7%,在"问答"类别领先55.7%,为传统TTS测试树立了新的行业标准。

Image

技术创新

Higgs Audio v2采用先进数据处理技术:

  • 通过离散音频标记器以每秒25帧的速度将音频信号转化为数字序列
  • 精准捕捉语义与声学特征
  • 依托预训练大语言模型增强语言理解与上下文把握能力
  • 支持零样本声音克隆,仅需少量提示即可适应新任务

Image

实际应用场景

该模型在现实场景中表现优异:

  • 实时语音聊天: 凭借低延迟和高情感表现力,成为虚拟主播与语音助手的理想选择
  • 音频内容创作: 为有声书、互动培训和动态叙事生成自然对话
  • 声音克隆: 复制特定声线,为娱乐和创意产业开辟新可能

代码已在GitHubHugging Face**开源****支持通过GPU版PyTorch或Docker进行本地部署。

核心亮点:

  • Higgs Audio v2开创具备声音克隆与节奏调节的多模态TTS系统
  • 千万小时数据训练使其在关键基准测试中全面领先竞品
  • 先进标记化技术与预训练模型确保高精度与强适应性
  • 开源特性推动实时聊天与内容创作领域的创新

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

印度Alpie AI模型引发轰动——但它真的是本土研发吗?
News

印度Alpie AI模型引发轰动——但它真的是本土研发吗?

印度新晋AI竞争者Alpie凭借媲美GPT-4o和Claude3.5等行业巨头的基准测试成绩引发关注。这款320亿参数的紧凑模型在数学和编程任务中表现亮眼,但技术审查显示其基于中国开源技术构建。虽然有人质疑其原创性,但Alpie的高效设计让强大AI变得前所未有的触手可及。

January 15, 2026
人工智能机器学习科技创新
Mugen3D将单张照片转化为惊艳的3D世界
News

Mugen3D将单张照片转化为惊艳的3D世界

一款名为Mugen3D的突破性AI工具正在改变我们创建3D内容的方式。它运用先进的3D高斯泼溅技术,仅需一张图像就能生成极其逼真的模型——以惊人的精确度捕捉纹理、光照和材质。这项创新有望在从游戏到电子商务的各行各业中普及3D创作。

January 12, 2026
AIComputerGraphicsDigitalCreation
阿里巴巴的通义千问以破纪录下载量主导AI领域
News

阿里巴巴的通义千问以破纪录下载量主导AI领域

阿里巴巴的通义千问大语言模型在全球应用率上遥遥领先,累计下载量突破7亿次——超过Meta、OpenAI等主要竞争对手的总和。其全面的开源策略和多场景应用能力将中国人工智能发展推向了国际新高度。

January 9, 2026
人工智能开源科技创新
News

高通与谷歌联手通过AI革新汽车技术

高通与谷歌正携手解决汽车行业最头疼的问题之一:分散的车载系统。他们新推出的'汽车AI代理'将高通的骁龙数字底盘与谷歌的Android Automotive OS相结合,承诺带来更流畅的开发体验和更智能的功能(如面部识别)。该合作还引入了基于云的开发工具,有望大幅缩短研发时间。这标志着向更统一、更智能的车辆系统迈出了重要一步。

January 9, 2026
automotive-techAIsmart-cars
Meta的Spatial Lingo将你的客厅变成语言教室
News

Meta的Spatial Lingo将你的客厅变成语言教室

Meta发布了创新的开源Unity应用Spatial Lingo,它能将日常物品转化为语言学习工具。这款应用通过混合现实技术,引导用户利用周围环境中的物品进行词汇练习。开发者可以通过实际案例探索Meta的SDK,同时创造引人入胜的教育体验。该项目展示了AR如何让语言学习更具沉浸感和情境相关性。

January 8, 2026
增强现实语言学习Meta
News

博世豪掷25亿欧元押注智能汽车AI技术

在2026年国际消费电子展上,汽车巨头博世宣布计划到2027年投资超25亿欧元用于AI研发,重点开发智能座舱和更安全的自动驾驶系统。这家德国供应商正谋求从硬件专家转型为软件领导者,预计其技术部门销售额到2030年代中期可达100亿欧元。

January 7, 2026
BoschAI自动驾驶汽车