Meta的SAM Audio技术:一键实现声音分离
Meta用SAM Audio革新音频编辑技术
想象一下,只需点击音乐会视频中的乐手就能提取吉他独奏,或输入"狗叫"就能从喜欢的播客中过滤犬吠声。这不是科幻小说——这正是Meta新推出的SAM Audio技术创造的现实。
SAM Audio工作原理 其核心是名为「感知编码视听系统」(PE-AV)的技术,Meta称之为模型的"耳朵"。这项巧妙的技术以前所未有的方式将视觉理解与音频处理相结合,相当于赋予AI人类在嘈杂环境中聚焦特定声音的自然能力。
三种控制音频的方式 SAM Audio的真正特别之处在于其直观的操作方式:
- 语音指令:输入"人声演唱"或"汽车鸣笛"等短语,系统就会神奇地提取这些声音
- 点击聆听:点击视频中的物体或人物即可分离相关音频
- 标记时段:高亮时间片段(如3:12至3:18)可消除该时段的噪音——就像音频版的Photoshop
Meta将部分功能比作《赛博朋克2077》等游戏中才有的技术。但与未来幻想不同,这项技术现已真实可用。
技术开源计划 为加速行业音频创新,Meta发布了两项重要工具:
- SAM Audio-Bench:音频分离技术的真实测试平台
- SAM Audio Judge:自动质量检测器,评估声音分离的纯净度
潜在应用场景令人惊叹——从使会议录音清晰可辨,到创建可自主控制听觉的AR沉浸体验,甚至可能改善听障人士的辅助设备。
随着视频内容持续爆发式增长,SAM Audio代表着我们与声音交互方式的根本转变。从被动接听到主动控制音频——这可能只是AI改变我们感官体验的开端。
核心亮点:
- 点击式声音分离让音频编辑大众化
- 视觉与听觉处理结合获得更精确结果
- 开源工具旨在标准化音频分离技术
- 应用范围涵盖娱乐科技到辅助设备



