StepFun AI 全新开源工具让音频编辑如打字般简单欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

StepFun AI 全新开源工具让音频编辑如打字般简单

用 AI 革新音频编辑

想象一下像编辑文本文档一样轻松调整语音录音——这正是 StepFun AI 通过其新发布的 Step-Audio-EditX 所实现的突破。这款开源音频编辑模型正在颠覆整个行业。

打破技术壁垒

Step-Audio-EditX 的魔力在于它将复杂的音频信号编辑转换为简单的令牌级操作。当大多数文本转语音系统还在为精确的情感控制苦苦挣扎时，该模型通过创新的数据处理和训练方法直面了这一挑战。

"传统系统常常达不到要求，"项目首席研究员李伟博士解释道，"它们可能生成听起来自然的语音，但无法捕捉微妙的情感变化或用户特定的风格需求。"

工作原理：双码本创新

该模型采用了一个精巧的双码本分词器，通过两个独立流处理语音：

语言流（16.7Hz）
语义流（25Hz）

这种双重方法可以同时处理文本和音频令牌，实现了前所未有的声音操控灵活性。

类人精度的训练过程

研究团队使用以下数据训练 Step-Audio-EditX：

60,000名多样化说话者的高质量数据
先进的大间隔学习技术
人类评分偏好数据进行强化学习

结果如何？在情感真实性和风格准确性方面取得了显著提升——这些改进用户都能真切听出来。

实战测试

团队开发了 Step-Audio-Edit-Test基准，使用 Gemini2.5Pro进行评估。结果显示经过多轮编辑后质量显著提升——证明这不仅停留在理论创新层面，更是实用性的进步。

有趣的是，Step-Audio-EditX不仅能独立工作；它还能增强闭源TTS系统的输出效果，为广泛的行业应用打开了大门。

关键亮点：

🎤 直观的音频编辑 - 现在像文本操作一样简单直接 📈 情感精度 - 大间隔学习带来细腻的声音控制 🔍 已验证的性能 - 基准测试确认质量提升 🌐 开源优势 - 全球开发者均可使用

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

MiniMax为OpenClaw的'小螃蟹'带来语音与音乐功能

MiniMax将其先进的语音和音乐模型集成至OpenClaw生态系统，使基于文本的AI助手蜕变为多功能伙伴。用户现可为'小螃蟹'配备40多种语言的自定义声音，或将其变成能创作从流行歌曲到器乐片段的全能音乐制作人。该升级仅需极简设置——上传文件并用自然语言描述想要的音色风格即可。

March 9, 2026

MiniMaxOpenClawAI助手

News

NVIDIA黄仁勋称OpenClaw为当今时代定义性软件

在摩根士丹利技术大会上，NVIDIA首席执行官黄仁勋发表震撼言论，将OpenClaw称为当今最具影响力的软件发布。这个开源项目仅用三周时间就实现了Linux耗时三十年才达成的成就——成为史上下载量最大的开源软件。黄仁勋阐述了他关于AI基础设施的'五层蛋糕'理论，并解释像OpenClaw这样的代理式AI如何创造了前所未有的计算需求。

March 6, 2026

人工智能科技创新开源

News

阿里巴巴辟谣Qwen团队出走传闻，誓言持续推动AI创新

阿里巴巴坚决否认了关于其Qwen AI模型团队大规模离职的网络传言。这家科技巨头确认该团队保持完整，并专注于通过开源开发推进人工通用智能（AGI）。与猜测相反，阿里巴巴强调其对技术突破而非商业指标的承诺，同时正在积极招募全球AI人才。

March 6, 2026

人工智能科技行业中国科技

News

Claude Code实现免手操作：开发者现可通过语音编写程序

Anthropic旗下Claude Code通过突破性的语音模式将编程推向新高度。开发者现在可以抛开键盘，直接通过语音指令重构代码或优化逻辑。该功能目前正逐步向部分Windows用户推出，有望重塑我们与AI编程助手的交互方式。与此同时，Anthropic的财务数据同样亮眼——年经常性收入达25亿美元，用户数量自1月以来已翻倍。

March 4, 2026

AI编程语音技术开发者工具