跳转到主要内容

美团新AI能以惊人准确度克隆声音

美团在语音克隆技术领域取得重大突破

在音频生成领域的重大飞跃中,美团LongCat团队开源了其革命性的LongCat-AudioDiT模型。该技术跳过了文本转语音系统中传统的中间步骤,直接处理声波以创建精确到令人毛骨悚然的语音克隆。

Image

全新激进方法

传统语音合成依赖多级处理流程,可能导致质量下降。LongCat-AudioDiT采用仅含两个核心组件的大胆捷径:

  • Wav-VAE:这种巧妙压缩器在保持质量的同时大幅缩小音频文件——想象将24kHz录音压缩至每秒仅11.7帧而不损失清晰度。
  • 语义增强DiT:该模型智能融合文本理解与声音生成,捕捉那些常在转换过程中丢失的微妙发音细节。

解决长期难题

团队直面两大语音克隆挑战:

  1. 修复声音漂移:是否注意到某些AI语音会在句中改变特性?新的双重约束机制终结了这种不稳定性。
  2. 提升自然音质:其自适应投影引导就像智能过滤器,保留音频信号中的优质部分,同时剔除使语音听起来机械化的部分。

不言自明的性能表现

独立测试显示LongCat-AudioDiT树立了新标准:

  • 达成近乎完美的相似度评分(中文0.818,困难句子0.797)
  • 英语单词错误率仅1.5%,保持卓越准确度
  • 超越Seed-TTS和CosyVoice3.5等成熟模型

最令人惊喜的是?它使用比竞争对手更简单的训练方法实现这一切,证明有时少即是多。

该技术现已通过GitHubHuggingFace向全球开发者开放。

关键要点:

  • 直接波形建模消除了中间步骤导致的质量损失
  • 2000倍压缩通过创新技术保持音频保真度
  • 中英文语音克隆均达顶级性能表现
  • 开源可用性促进社区开发与创新

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

阿里巴巴通义实验室推出突破性AI,实现类人语音

阿里巴巴通义实验室开源了革命性的语音合成模型Fun-CineForge,该模型以前所未有的真实感捕捉人类情感。这一突破通过使AI理解复杂语境并呈现细腻表演,有望彻底改变影视配音与后期制作流程。该技术或将让各级创作者都能获得高质量的配音服务。

March 16, 2026
AI语音合成通义实验室情感AI
News

AI语音诈骗激增:深度伪造技术连亲密家人也能欺骗

一股令人不安的AI语音诈骗新浪潮正在多国蔓延,诈骗者使用逼真得可怕的深度伪造技术冒充亲人。最新研究显示,去年每四个美国人中就有一人接到过此类电话,其中老年人尤其脆弱——平均每次诈骗损失1298美元。随着这类精密骗局以每年16%的速度增长,专家警告我们正在输掉与诈骗者的技术军备竞赛,亟需更好的防御措施。

March 16, 2026
AI安全语音克隆金融欺诈
News

Hume AI的TADA为手机带来闪电般快速且无幻觉的语音技术

Hume AI发布了突破性的文本转语音系统TADA,该系统能在移动设备上高效运行。与传统模型不同,它在提供比传统快五倍的音频同时消除了内容幻觉现象。真正让它脱颖而出的是什么?它能生成长达700秒的音频片段并同步提供实时转录——无需额外处理。早期测试显示其在音质方面也优于更大的模型。

March 12, 2026
AI语音合成移动技术开源AI
News

Fish Audio S2为AI语音注入情感深度

Fish Audio发布了具有突破性的S2文本转语音模型,为合成语音提供了前所未有的情感控制能力。这项完全开源的技术支持词级调整——从低语到笑声——并具备超低延迟特性。基于50种语言、1000万小时音频数据的训练,S2有望彻底改变我们在实时应用中与AI语音交互的方式。

March 11, 2026
AI语音合成文本转语音情感AI
NPR主持人起诉谷歌,称AI声音"诡异得像自己"
News

NPR主持人起诉谷歌,称AI声音"诡异得像自己"

NPR资深主持人David Greene对谷歌提起诉讼,指控其NotebookLM人工智能工具使用了一种模仿他独特嗓音的合成声音。这位电台主持人表示,朋友和同事将AI的说话方式——包括他标志性的'嗯'声——误认为是他本人的录音。谷歌坚称该声音属于专业演员。这场法律纠纷凸显了娱乐行业对AI语音克隆日益增长的担忧,此前已发生多起涉及名人声音的类似争议。

February 16, 2026
AI伦理语音克隆媒体法
机器人通过MiniMax与智元合作获得个性化声音
News

机器人通过MiniMax与智元合作获得个性化声音

MiniMax与智元机器人正携手为机器人打造真正个性化的声音。这项合作超越了标准文本转语音技术,让每位用户都能为其机器人伙伴创建独特的声纹身份。该系统甚至能理解情感细微差别,有望在养老护理、客户服务和娱乐场景中实现更自然的交互体验。

January 5, 2026
AI语音合成机器人伴侣情感AI