跳转到主要内容

阿里巴巴通义推出Qwen3-ASR-Toolkit,实现高级转录功能

阿里巴巴通义推出Qwen3-ASR-Toolkit,实现高级转录功能

阿里巴巴通义千问团队发布了Qwen3-ASR-Toolkit,这是一款开源的Python命令行工具,旨在革新音视频转录技术。这一创新突破了Qwen3-ASR-Flash API此前三分钟的限制,可实现长达数小时内容的无缝转录。

Image

增强功能

该工具包采用智能语音活动检测(VAD)技术确保转录过程中的句子完整性。它能自动将音频文件重新采样为16kHz单声道以获得最佳处理效果,并支持多线程并行上传,显著缩短处理时间。

广泛格式支持

基于FFmpeg构建的工具包支持几乎所有主流音视频格式,包括:

  • MP4、MOV、MKV(视频)
  • MP3、WAV、M4A(音频) 这种灵活性消除了用户的兼容性顾虑。

基于Qwen3-ASR-Flash驱动

底层Qwen3-ASR-Flash模型的训练数据包括:

  • 海量多模态数据集
  • 数千万小时的ASR数据 这一基础使其具备行业领先的语音识别准确率。

该工具包已在GitHub发布:Qwen3-ASR-Toolkit

关键亮点:

📌 突破此前仅限3分钟的转录时长限制,支持长达数小时内容
🎤 采用先进VAD技术实现精准语句分割
💻 支持并行处理以加快转写速度
🔊 兼容几乎所有主流音视频格式

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

小米机器人脑突破性进展开源
News

小米机器人脑突破性进展开源

小米在机器人领域迈出大胆一步,将其突破性的VLA模型开源。这个拥有47亿参数的'大脑'解决了机器人视觉与动作间的恼人延迟,使日常硬件也能实现实时响应。创新的架构将语言理解与精准运动控制相结合,在模拟和真实世界测试中树立了新标杆。

February 12, 2026
机器人技术人工智能创新开源技术
News

科大讯飞星火X2凭借国产AI算力取得新突破

中国科技企业科大讯飞发布了最新AI突破成果——星火X2大语言模型。其独特之处在于完全基于国产计算基础设施训练完成,标志着中国技术自主化进程中的重要一步。该模型专注于教育、医疗等四大专业领域,旨在提供实用解决方案而非炫技演示。

February 11, 2026
人工智能创新技术主权中国科技
中国东方航空联合阿里巴巴推出AI语音订票服务
News

中国东方航空联合阿里巴巴推出AI语音订票服务

中国东方航空与阿里巴巴的通义千问AI及飞猪旅行平台达成合作,彻底革新航班预订方式。乘客现在只需口述旅行计划即可通过语音指令完成预订,省去繁琐的搜索流程。该合作还为使用这一对话式预订系统的用户提供专属折扣,标志着航空服务向AI驱动的重大转型。

February 11, 2026
旅游科技人工智能创新语音商务
Mistral新一代语音转文本模型树立速度与隐私新标杆
News

Mistral新一代语音转文本模型树立速度与隐私新标杆

法国AI创新企业Mistral发布了两款突破性的语音转文本模型,承诺提供闪电般快速的转录速度和前所未有的隐私保护。Voxtral Mini Transcribe V2批量处理价格低至每分钟0.003美元,而Voxtral Realtime可实现延迟仅200毫秒的实时转录。两款模型均支持本地设备运行、兼容13种语言,旨在颠覆企业转录市场。

February 11, 2026
AI转录MistralAI语音识别
News

智边的MemoryLake为AI模型赋予类人类记忆增强

智边科技发布了突破性的多模态记忆平台MemoryLake,正在重新定义AI系统保留和使用信息的方式。与传统数据库不同,该系统模拟人类记忆过程,使AI能够在从金融到游戏等各行业做出更明智的决策。该技术已服务于全球超过150万用户,标志着AI基础设施的重大转变。

February 10, 2026
人工智能创新认知计算企业技术
专启力AI:将专利撰写从数日缩短至分钟
News

专启力AI:将专利撰写从数日缩短至分钟

KAIWU团队推出的专启力AI平台彻底改变了专利文档撰写方式。告别法律术语的困扰和数周的起草过程——该工具可在30秒内生成专利名称,并在短短10分钟内完成全套申请文件。专为专利设计,它能同时理解技术概念和法律要求,使研究人员和初创企业都能轻松获得专业水准的专利申请。早期使用者反馈称,在处理专业内容时,它避免了通用AI工具的常见缺陷。

February 9, 2026
人工智能创新专利自动化法律科技