跳转到主要内容

音频AI遭遇瓶颈:为何精准编辑仍遥不可及

AI尚未攻克的编辑难题

尽管AI在从零生成音频方面取得了显著进展,但对现有录音进行调整的能力却出人意料地原始。名为MMAE(大规模多任务音频编辑基准测试)的新标准暴露出当前技术与人类编辑水平之间的巨大差距。由腾讯混元联合上海交通大学等顶尖机构开发的MMAE,是首个系统性衡量AI编辑能力的尝试。

为何编辑比生成更难

"这就像根据蓝图建造房屋与翻新房屋的区别,"北京大学参与该项目的音频AI研究员李伟博士解释道,"现有模型擅长遵循指令创造新内容,但若要求它们只修改厨房橱柜而不触及房屋其他部分?这时它们就会崩溃。"

数据不会说谎。按照MMAE严格标准测试时,即使最先进的模型在精确匹配率(EMR)上也未能超过5%——这意味着95%的情况下,它们要么改动过多,要么遗漏指令,要么降低了音频质量。

MMAE基准测试内幕

MMAE与以往测试有何不同?

  • 真实世界样本:涵盖音乐、语音和环境音的2000个音频片段
  • 精细指标:17,741个评估点分析编辑质量的每个方面
  • 复杂场景:从简单编辑到多步推理挑战的全面测试
  • 8种操作类型:测量从音量调整到完整人声替换的所有操作

"我们设计MMAE是为了反映专业人士的实际工作方式,"上海交通大学的陈博士表示,"不仅测试AI能否遵循指令,还要看它能否在不引入伪影或意外改动的情况下完成任务。"

未来之路

MMAE团队希望他们的基准测试能加速这个被忽视的音频AI领域的发展。虽然生成模型抢占了头条,但从播客制作到电影剪辑的实际应用都迫切需要可靠的编辑能力。

"这不仅是学术练习,"腾讯音频负责人张远指出,"率先攻克精准音频编辑的企业将在媒体、娱乐和通讯工具领域获得巨大优势。"

关键要点

  • 新MMAE基准显示AI音频编辑准确率不足5%
  • 编辑现有音频远比从零生成困难
  • 基准测试包含2000个真实世界样本和17,741个评估指标
  • 该技术可能彻底改变播客、音乐制作和电影剪辑
  • 腾讯与高校合作伙伴旨在加速该领域发展