阿里巴巴Fun-ASR模型将语音识别准确率提升15%
阿里巴巴Fun-ASR模型创语音识别新标杆
阿里巴巴通义近日发布其Fun-ASR端到端语音识别模型的重大升级版本,在专业行业应用中实现超过15%的准确率提升。增强后的模型在保险、家装、畜牧等垂直领域表现尤为突出,测试数据显示保险相关语音识别的准确率较前代版本提高了18%。
推动性能的技术创新
这一突破源于多项关键技术进展:
- 上下文感知算法:提升对行业专业术语和短语的理解能力
- Qwen3监督微调:通过先进训练技术提高模型精度
- RAG检索增强:支持导入1000+自定义热词实现领域定制优化

解决行业痛点
研发团队通过创新方案攻克了语音识别的长期难题:
- 强化学习(RL)整合:通过动态优化策略减少错误
- 方言识别:在四川话、粤语和闽南语中表现优异
- 环境适应性:适用于从会议室到户外等多种场景
该模型的训练纳入了数亿小时的音频数据及来自十余个行业的专业术语,使其在细分应用中表现卓越。例如,即使在背景噪音下也能准确识别畜牧环境中的动物声音和指令。
未来应用与影响
阿里巴巴技术团队强调,Fun-ASR标志着从通用型向专业化语音识别的转变。随着在各行业的部署扩展,其动态热词更新和多模态能力有望彻底改变语音交互效率。
核心亮点
- 在保险、家装等垂直行业实现15-20%准确率提升
- 结合Qwen3微调与RAG检索增强实现领域定制优化
- 通过基于强化学习的错误减少机制在复杂环境中表现突出
- 基于海量数据集训练并深度融合行业术语
- 有望推动专业语音交互应用创新


