阿里巴巴新型AI编程助手在关键基准测试中超越前代
阿里巴巴编程AI实现重大突破
中国科技巨头阿里巴巴近日揭晓了Qwen系列最新成员Qwen3.6-Max-Preview。这不仅是常规迭代——早期测试表明在代码编写与理解方面,该模型已大幅超越前代产品。

基准测试表现抢眼
测试数据颇具说服力。在包括SWE-benchPro和Terminal-Bench2.0在内的六项关键编程测试中,Qwen3.6-Max-Preview创造了该系列最高得分记录。其编程智能体能力提升尤为显著:
- SkillsBench提升9.9分
- SciCode飙升10.8分
- NL2Repo进步5.0分
"这些改进绝非统计误差,"AI研究员林伟博士指出,"编程基准测试10分的提升通常意味着实际开发环境中的性能显著优化。"
不限于编程能力
虽然编程实力备受关注,该模型在其他领域同样出色。其世界知识理解能力在SuperGPQA上提升2.3分,中文基准测试提升5.3分。即使在处理复杂指令方面也取得显著进步,ToolcallFormatIFBench得分提高2.8分。
获取方式
早期使用者现可通过阿里巴巴QwenStudio平台体验Qwen3.6-Max-Preview。开发者也可通过阿里云百炼API(文档中搜索"qwen3.6-max-preview")将其集成至工作流程。
阿里巴巴强调该模型仍处于开发阶段。"这就像是我们发展方向的预告片,"项目负责人张力表示,"最终版本将在现有基础上进行更多优化与功能扩充。"
核心亮点
- 🚀 编程性能强劲:在多项编程基准测试中超越前代模型
- 📚 知识体系升级:展现改进的世界知识理解与中文处理能力
- 🔧 持续开发中:当前预览版预示更强大的最终版本
- 💻 即刻体验:可通过QwenStudio和阿里云API接入



