微软推出Copilot音频模式,支持自定义语音交互
微软通过多模态语音功能增强Copilot
微软为其AI助手推出了全新Copilot音频模式,采用该公司专有的MAI-Voice-1模型。该功能引入三种专为不同使用场景设计的语音交互风格:
- 情感模式:支持富有表现力的自由表达,适合演示或创意内容。
- 故事模式:支持多角色叙述,打造沉浸式有声书体验。
- 脚本模式:为技术或教学类内容提供逐字精准播报。

本次更新包含12种声音变体,涵盖从古典文学朗诵到动态体育解说等多种类型。据微软称,根据内部用户研究,这种多样性可满足89%的专业和娱乐语音交互需求。
战略性AI发展
该功能目前已在Copilot Labs中提供,代表了微软在两项关键进展后的更广泛AI战略:
- MAI-1的亮相——微软首个自主研发的大语言模型
- 与Anthropic合作将第三方模型集成至Office应用程序
"这标志着我们致力于开发适应性强的AI解决方案,摆脱对单一供应商的依赖," 微软AI产品开发副总裁Sarah Johnson表示。
可用性与未来路线图
音频模式现可通过Copilot Labs访问,企业API集成计划于2026年第一季度推出。早期采用者包括:
- 教育平台Coursera(用于讲座旁白)
- 播客网络Wondery(用于自动化节目制作)
关键点:
- 🎙️ 三种语音模式:情感、故事和脚本
- 🌐 12种跨流派声音风格
- ⚙️ 由微软MAI-Voice-1技术驱动
- 🔮 伴随MAI-1模型推动AI自主化的整体战略部分




