跳转到主要内容

StepFun AI 全新开源工具让音频编辑如打字般简单

用 AI 革新音频编辑

想象一下像编辑文本文档一样轻松调整语音录音——这正是 StepFun AI 通过其新发布的 Step-Audio-EditX 所实现的突破。这款开源音频编辑模型正在颠覆整个行业。

Image

打破技术壁垒

Step-Audio-EditX 的魔力在于它将复杂的音频信号编辑转换为简单的令牌级操作。当大多数文本转语音系统还在为精确的情感控制苦苦挣扎时,该模型通过创新的数据处理和训练方法直面了这一挑战。

"传统系统常常达不到要求,"项目首席研究员李伟博士解释道,"它们可能生成听起来自然的语音,但无法捕捉微妙的情感变化或用户特定的风格需求。"

工作原理:双码本创新

该模型采用了一个精巧的双码本分词器,通过两个独立流处理语音:

  • 语言流(16.7Hz)
  • 语义流(25Hz)

这种双重方法可以同时处理文本和音频令牌,实现了前所未有的声音操控灵活性。

Image

类人精度的训练过程

研究团队使用以下数据训练 Step-Audio-EditX:

  • 60,000名多样化说话者的高质量数据
  • 先进的大间隔学习技术
  • 人类评分偏好数据进行强化学习

结果如何?在情感真实性和风格准确性方面取得了显著提升——这些改进用户都能真切听出来。

实战测试

团队开发了 Step-Audio-Edit-Test基准,使用 Gemini2.5Pro进行评估。结果显示经过多轮编辑后质量显著提升——证明这不仅停留在理论创新层面,更是实用性的进步。

有趣的是,Step-Audio-EditX不仅能独立工作;它还能增强闭源TTS系统的输出效果,为广泛的行业应用打开了大门。

关键亮点:

🎤 直观的音频编辑 - 现在像文本操作一样简单直接 📈 情感精度 - 大间隔学习带来细腻的声音控制 🔍 已验证的性能 - 基准测试确认质量提升 🌐 开源优势 - 全球开发者均可使用

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

MiniMax为OpenClaw的'小螃蟹'带来语音与音乐功能

MiniMax将其先进的语音和音乐模型集成至OpenClaw生态系统,使基于文本的AI助手蜕变为多功能伙伴。用户现可为'小螃蟹'配备40多种语言的自定义声音,或将其变成能创作从流行歌曲到器乐片段的全能音乐制作人。该升级仅需极简设置——上传文件并用自然语言描述想要的音色风格即可。

March 9, 2026
MiniMaxOpenClawAI助手
NVIDIA黄仁勋称OpenClaw为当今时代定义性软件
News

NVIDIA黄仁勋称OpenClaw为当今时代定义性软件

在摩根士丹利技术大会上,NVIDIA首席执行官黄仁勋发表震撼言论,将OpenClaw称为当今最具影响力的软件发布。这个开源项目仅用三周时间就实现了Linux耗时三十年才达成的成就——成为史上下载量最大的开源软件。黄仁勋阐述了他关于AI基础设施的'五层蛋糕'理论,并解释像OpenClaw这样的代理式AI如何创造了前所未有的计算需求。

March 6, 2026
人工智能科技创新开源
News

阿里巴巴辟谣Qwen团队出走传闻,誓言持续推动AI创新

阿里巴巴坚决否认了关于其Qwen AI模型团队大规模离职的网络传言。这家科技巨头确认该团队保持完整,并专注于通过开源开发推进人工通用智能(AGI)。与猜测相反,阿里巴巴强调其对技术突破而非商业指标的承诺,同时正在积极招募全球AI人才。

March 6, 2026
人工智能科技行业中国科技
Claude Code实现免手操作:开发者现可通过语音编写程序
News

Claude Code实现免手操作:开发者现可通过语音编写程序

Anthropic旗下Claude Code通过突破性的语音模式将编程推向新高度。开发者现在可以抛开键盘,直接通过语音指令重构代码或优化逻辑。该功能目前正逐步向部分Windows用户推出,有望重塑我们与AI编程助手的交互方式。与此同时,Anthropic的财务数据同样亮眼——年经常性收入达25亿美元,用户数量自1月以来已翻倍。

March 4, 2026
AI编程语音技术开发者工具
美团AI浏览器陷入代码争议,宣布全面开源
News

美团AI浏览器陷入代码争议,宣布全面开源

美团光年之外团队就其Tabbit AI浏览器涉嫌代码抄袭的指控作出回应,移除了存在争议的翻译功能并将项目完全开源。争议起因是开发者发现该浏览器与开源项目'Read-Frog'存在相似之处。虽然美团声称分叉行为发生在许可证条款明确之前,但该事件凸显了AI快速发展与开源合规之间日益紧张的矛盾。

March 3, 2026
AI伦理开源科技争议
News

阿里Qwen AI模型称霸全球排行榜,春节期间使用量飙升

阿里巴巴的Qwen系列AI模型席卷开源界,包揽Hugging Face全球排行榜前四名。春节期间消费者采用率飙升,日活跃用户激增近十倍。该模型通过简单语音指令处理复杂任务的能力,标志着AI助手正从新奇事物转变为日常实用工具。

March 2, 2026
人工智能阿里云开源