美团新AI能以惊人准确度克隆声音欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

美团新AI能以惊人准确度克隆声音

美团在语音克隆技术领域取得重大突破

在音频生成领域的重大飞跃中，美团LongCat团队开源了其革命性的LongCat-AudioDiT模型。该技术跳过了文本转语音系统中传统的中间步骤，直接处理声波以创建精确到令人毛骨悚然的语音克隆。

全新激进方法

传统语音合成依赖多级处理流程，可能导致质量下降。LongCat-AudioDiT采用仅含两个核心组件的大胆捷径：

Wav-VAE：这种巧妙压缩器在保持质量的同时大幅缩小音频文件——想象将24kHz录音压缩至每秒仅11.7帧而不损失清晰度。
语义增强DiT：该模型智能融合文本理解与声音生成，捕捉那些常在转换过程中丢失的微妙发音细节。

解决长期难题

团队直面两大语音克隆挑战：

修复声音漂移：是否注意到某些AI语音会在句中改变特性？新的双重约束机制终结了这种不稳定性。
提升自然音质：其自适应投影引导就像智能过滤器，保留音频信号中的优质部分，同时剔除使语音听起来机械化的部分。

不言自明的性能表现

独立测试显示LongCat-AudioDiT树立了新标准：

达成近乎完美的相似度评分（中文0.818，困难句子0.797）
英语单词错误率仅1.5%，保持卓越准确度
超越Seed-TTS和CosyVoice3.5等成熟模型

最令人惊喜的是？它使用比竞争对手更简单的训练方法实现这一切，证明有时少即是多。

该技术现已通过GitHub和HuggingFace向全球开发者开放。

关键要点：

直接波形建模消除了中间步骤导致的质量损失
2000倍压缩通过创新技术保持音频保真度
中英文语音克隆均达顶级性能表现
开源可用性促进社区开发与创新

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

阿里巴巴通义实验室推出突破性AI，实现类人语音

阿里巴巴通义实验室开源了革命性的语音合成模型Fun-CineForge，该模型以前所未有的真实感捕捉人类情感。这一突破通过使AI理解复杂语境并呈现细腻表演，有望彻底改变影视配音与后期制作流程。该技术或将让各级创作者都能获得高质量的配音服务。

March 16, 2026

AI语音合成通义实验室情感AI

News

AI语音诈骗激增：深度伪造技术连亲密家人也能欺骗

一股令人不安的AI语音诈骗新浪潮正在多国蔓延，诈骗者使用逼真得可怕的深度伪造技术冒充亲人。最新研究显示，去年每四个美国人中就有一人接到过此类电话，其中老年人尤其脆弱——平均每次诈骗损失1298美元。随着这类精密骗局以每年16%的速度增长，专家警告我们正在输掉与诈骗者的技术军备竞赛，亟需更好的防御措施。

March 16, 2026

AI安全语音克隆金融欺诈

News

Hume AI的TADA为手机带来闪电般快速且无幻觉的语音技术

Hume AI发布了突破性的文本转语音系统TADA，该系统能在移动设备上高效运行。与传统模型不同，它在提供比传统快五倍的音频同时消除了内容幻觉现象。真正让它脱颖而出的是什么？它能生成长达700秒的音频片段并同步提供实时转录——无需额外处理。早期测试显示其在音质方面也优于更大的模型。

March 12, 2026

AI语音合成移动技术开源AI

News

Fish Audio S2为AI语音注入情感深度

Fish Audio发布了具有突破性的S2文本转语音模型，为合成语音提供了前所未有的情感控制能力。这项完全开源的技术支持词级调整——从低语到笑声——并具备超低延迟特性。基于50种语言、1000万小时音频数据的训练，S2有望彻底改变我们在实时应用中与AI语音交互的方式。

March 11, 2026

AI语音合成文本转语音情感AI

News

NPR主持人起诉谷歌，称AI声音"诡异得像自己"

NPR资深主持人David Greene对谷歌提起诉讼，指控其NotebookLM人工智能工具使用了一种模仿他独特嗓音的合成声音。这位电台主持人表示，朋友和同事将AI的说话方式——包括他标志性的'嗯'声——误认为是他本人的录音。谷歌坚称该声音属于专业演员。这场法律纠纷凸显了娱乐行业对AI语音克隆日益增长的担忧，此前已发生多起涉及名人声音的类似争议。

February 16, 2026

AI伦理语音克隆媒体法