美团新AI能以惊人准确度克隆声音
美团在语音克隆技术领域取得重大突破
在音频生成领域的重大飞跃中,美团LongCat团队开源了其革命性的LongCat-AudioDiT模型。该技术跳过了文本转语音系统中传统的中间步骤,直接处理声波以创建精确到令人毛骨悚然的语音克隆。

全新激进方法
传统语音合成依赖多级处理流程,可能导致质量下降。LongCat-AudioDiT采用仅含两个核心组件的大胆捷径:
- Wav-VAE:这种巧妙压缩器在保持质量的同时大幅缩小音频文件——想象将24kHz录音压缩至每秒仅11.7帧而不损失清晰度。
- 语义增强DiT:该模型智能融合文本理解与声音生成,捕捉那些常在转换过程中丢失的微妙发音细节。
解决长期难题
团队直面两大语音克隆挑战:
- 修复声音漂移:是否注意到某些AI语音会在句中改变特性?新的双重约束机制终结了这种不稳定性。
- 提升自然音质:其自适应投影引导就像智能过滤器,保留音频信号中的优质部分,同时剔除使语音听起来机械化的部分。
不言自明的性能表现
独立测试显示LongCat-AudioDiT树立了新标准:
- 达成近乎完美的相似度评分(中文0.818,困难句子0.797)
- 英语单词错误率仅1.5%,保持卓越准确度
- 超越Seed-TTS和CosyVoice3.5等成熟模型
最令人惊喜的是?它使用比竞争对手更简单的训练方法实现这一切,证明有时少即是多。
该技术现已通过GitHub和HuggingFace向全球开发者开放。
关键要点:
- 直接波形建模消除了中间步骤导致的质量损失
- 2000倍压缩通过创新技术保持音频保真度
- 中英文语音克隆均达顶级性能表现
- 开源可用性促进社区开发与创新

