跳转到主要内容

阿里巴巴Qwen3-VL在空间推理测试中超越竞争对手

阿里巴巴AI模型在空间理解领域取得突破

阿里巴巴的Qwen视觉模型在测试AI空间推理能力的严格基准SpatialBench中占据榜首。较新的Qwen3-VL获得了令人印象深刻的13.5分,而其前身Qwen2.5-VL紧随其后获得12.9分——两者均显著优于来自谷歌和OpenAI的竞争模型。

Image

SpatialBench有何特别之处?

SpatialBench评估AI系统处理现实世界空间挑战的能力——从解读工程图表到理解分子结构。它常被称为"具身智能的试金石",推动模型超越简单的图像识别,实现真正的空间理解。

Qwen3-VL脱颖而出的原因

最新版本带来了几项突破性改进:

  • 增强的3D感知:通过添加旋转边界框输出和深度估计,该模型在物体部分遮挡的杂乱环境中实现了18%的准确率提升。
  • 草图转代码功能:用户现在可以绘制粗略图表或上传短视频,系统会使用OpenCV将其直接转换为可运行的Python代码——本质上将视觉想法转化为可执行程序。
  • 灵活的扩展选项:提供从紧凑的2B版本到庞大的235B配置的不同规模选择,允许不同应用选择其理想的性能与效率平衡点。

实际应用已在推进中

阿里云报告称早期实施显示出有希望的结果:

  • 使用Qwen3-VL的物流机器人实现了2厘米以内的空间定位精度
  • AR装配系统展示了改进的零件对齐能力
  • 智能港口运营受益于增强的集装箱跟踪

公司计划到2026年发布端到端的"视觉-动作"模型,可能赋予机器人实时视觉协调能力。

可用时间表

上一代产品(Qwen2.5-VL)已经开源,而Qwen3-VL的代码和工具应于2025年年中通过阿里巴巴即将推出的Qwen App公开发布。

关键点:

  • 阿里巴巴Qwen模型在空间推理基准测试中领先
  • 新功能实现了更好的3D理解和视觉编程
  • 实际部署显示厘米级精度
  • 计划2025年开源发布

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

李飞飞AI初创公司World Labs在重大融资轮中斩获10亿美元

由著名计算机科学家李飞飞联合创立的AI初创公司World Labs在最新一轮融资中获得了惊人的10亿美元资金。此次投资由Autodesk领投2亿美元,科技巨头NVIDIA、AMD以及风投公司Andreessen Horowitz共同参与。这笔巨额资金将助力该公司推进人工智能技术前沿的宏伟计划。

February 19, 2026
人工智能科技初创企业计算机视觉
阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节
News

阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节

阿里云推出突破性AI模型Qwen-Image-2.0,将图像生成与编辑功能无缝整合。这款轻量级7B架构模型可生成令人惊叹的2K分辨率图像,实现像素级文本渲染与逼真材质表现。从古典书法到现代信息图,它能处理多样化创意任务,并在复杂场景中保持角色一致性。该模型已通过阿里云百炼平台开放测试。

February 10, 2026
AI图像生成阿里云计算机视觉
News

奥尔特曼力挺AI初创公司,致力于让机器像人类一样认知世界

OpenAI首席执行官山姆·奥尔特曼重金押注由AI先驱李飞飞创立的World Labs,这家初创公司正在开发人工智能的空间智能技术。在奥尔特曼的支持下,该公司估值已突破10亿美元大关。他们的宏伟目标?赋予AI系统与人类相同的三维物理世界理解能力——这正是当前语言模型所严重欠缺的。

February 9, 2026
人工智能空间计算科技投资
News

腾讯AI布局再添强援:顶尖科学家田雨鹏加入混元团队

腾讯在人工智能人才争夺战中再下一城,聘请田雨鹏担任混元多模态团队首席研究科学家。这位清华大学博士、前Sea AI Lab研究员将专注于提升腾讯旗舰AI模型的强化学习能力。此举彰显了腾讯持续领跑多模态AI前沿研发的决心。

February 3, 2026
腾讯人工智能研究强化学习
深度求索全新OCR技术模拟人类视觉,大幅降低成本
News

深度求索全新OCR技术模拟人类视觉,大幅降低成本

中国AI公司深度求索发布了突破性的视觉编码器OCR2,其处理文档的方式如同人眼浏览页面。通过摒弃僵化的网格处理方式,采用灵活的'因果流令牌'技术,该系统在性能超越Gemini3Pro的同时,将视觉令牌使用量减少了80%。这项开源技术可能为真正统一的多模态AI铺平道路。

February 2, 2026
计算机视觉AI突破文档AI
清华AI精英加盟腾讯,助力多模态学习加速发展
News

清华AI精英加盟腾讯,助力多模态学习加速发展

腾讯的人工智能雄心因清华大学机器学习新星彭天佑的加入而获得重大提升。这位31岁的天才将他在强化学习和多模态系统方面的专长带到通义团队,此前他刚结束在新加坡Sea AI Lab的工作。这是继近期挖角OpenAI研究员后,腾讯的又一战略人才引进。

January 30, 2026
腾讯人工智能研究机器学习