阿里巴巴Qwen3-VL在空间推理测试中超越竞争对手
阿里巴巴AI模型在空间理解领域取得突破
阿里巴巴的Qwen视觉模型在测试AI空间推理能力的严格基准SpatialBench中占据榜首。较新的Qwen3-VL获得了令人印象深刻的13.5分,而其前身Qwen2.5-VL紧随其后获得12.9分——两者均显著优于来自谷歌和OpenAI的竞争模型。

SpatialBench有何特别之处?
SpatialBench评估AI系统处理现实世界空间挑战的能力——从解读工程图表到理解分子结构。它常被称为"具身智能的试金石",推动模型超越简单的图像识别,实现真正的空间理解。
Qwen3-VL脱颖而出的原因
最新版本带来了几项突破性改进:
- 增强的3D感知:通过添加旋转边界框输出和深度估计,该模型在物体部分遮挡的杂乱环境中实现了18%的准确率提升。
- 草图转代码功能:用户现在可以绘制粗略图表或上传短视频,系统会使用OpenCV将其直接转换为可运行的Python代码——本质上将视觉想法转化为可执行程序。
- 灵活的扩展选项:提供从紧凑的2B版本到庞大的235B配置的不同规模选择,允许不同应用选择其理想的性能与效率平衡点。
实际应用已在推进中
阿里云报告称早期实施显示出有希望的结果:
- 使用Qwen3-VL的物流机器人实现了2厘米以内的空间定位精度
- AR装配系统展示了改进的零件对齐能力
- 智能港口运营受益于增强的集装箱跟踪
公司计划到2026年发布端到端的"视觉-动作"模型,可能赋予机器人实时视觉协调能力。
可用时间表
上一代产品(Qwen2.5-VL)已经开源,而Qwen3-VL的代码和工具应于2025年年中通过阿里巴巴即将推出的Qwen App公开发布。
关键点:
- 阿里巴巴Qwen模型在空间推理基准测试中领先
- 新功能实现了更好的3D理解和视觉编程
- 实际部署显示厘米级精度
- 计划2025年开源发布



