阿里巴巴通义推出Qwen3-ASR-Toolkit,实现高级转录功能
阿里巴巴通义推出Qwen3-ASR-Toolkit,实现高级转录功能
阿里巴巴通义千问团队发布了Qwen3-ASR-Toolkit,这是一款开源的Python命令行工具,旨在革新音视频转录技术。这一创新突破了Qwen3-ASR-Flash API此前三分钟的限制,可实现长达数小时内容的无缝转录。

增强功能
该工具包采用智能语音活动检测(VAD)技术确保转录过程中的句子完整性。它能自动将音频文件重新采样为16kHz单声道以获得最佳处理效果,并支持多线程并行上传,显著缩短处理时间。
广泛格式支持
基于FFmpeg构建的工具包支持几乎所有主流音视频格式,包括:
- MP4、MOV、MKV(视频)
- MP3、WAV、M4A(音频) 这种灵活性消除了用户的兼容性顾虑。
基于Qwen3-ASR-Flash驱动
底层Qwen3-ASR-Flash模型的训练数据包括:
- 海量多模态数据集
- 数千万小时的ASR数据 这一基础使其具备行业领先的语音识别准确率。
该工具包已在GitHub发布:Qwen3-ASR-Toolkit
关键亮点:
📌 突破此前仅限3分钟的转录时长限制,支持长达数小时内容
🎤 采用先进VAD技术实现精准语句分割
💻 支持并行处理以加快转写速度
🔊 兼容几乎所有主流音视频格式



