跳转到主要内容

Gemini领跑全球AI视觉竞赛,中国模型崭露头角

AI视觉霸权争夺战升温

最新的SuperCLUE-VLM12基准测试描绘出当今多模态AI领域的精彩图景。谷歌Gemini-3-pro不仅领跑全场——更以83.64分的统治级表现全面改写各项评估标准。

Image

国内挑战者崛起

本次竞赛特别引人注目的是中国模型的强劲表现。商汤科技的SenseNova V6.5Pro以75.35分夺得亚军,在视觉推理任务中展现特殊优势;字节跳动的抖音视觉版则以73.15分跻身前三,甚至在基础认知测试中超越多个国际竞争对手。

"这些结果印证了中国在计算机视觉技术领域日益增长的实力",清华大学AI研究员李伟博士指出,"三年前我们根本看不到国产模型能达到这种竞争水平"。

意外与突破

本次基准测试呈现多个重要动态:

  • 开源里程碑:阿里巴巴的Qwen3-vl成为首个突破70分大关的开源模型(70.89分),为开发者社区提供强大的视觉分析能力
  • 老牌选手失利:Anthropic的Claude-opus-4-5仅获71.44分,而OpenAI的GPT-5.2(高级版)69.16分的表现更是远低于行业预期
  • 百度稳守阵地:ERNIE-5.0-Preview保持第五名的成绩,延续中国模型的强势表现

对AI发展的启示

结果表明我们正在进入新阶段: 1) 视觉理解能力正成为区分模型的关键要素 2) 专有解决方案与开源方案之间的差距正在缩小 3) AI领域的传统实力排名未必适用于视觉能力评估

"我们看到专业化趋势正在形成",MIT教授Alan Chen解释道,"某些优化文本处理的模型在视觉任务中表现挣扎,而像Gemini这样明显优先多模态训练的模型则表现出色"。

核心要点:

  • 全球领跑者:Gemini-3-pro在基础认知(84.2)、视觉推理(83.1)和应用(83.6)三大领域均获最高分
  • 中国进步:两款国产模型现已跻身全球视觉基准测试前三强
  • 开源进展:Qwen3-vl为社区开发的视觉模型开辟新天地
  • 格局变迁:GPT等传统领军者在视觉任务中显现意外短板

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

NVIDIA Lyra 2.0:将单张图片转化为广阔3D世界
News

NVIDIA Lyra 2.0:将单张图片转化为广阔3D世界

NVIDIA发布了开源框架Lyra 2.0,可将单张图像转换为细节丰富、可自由行走的3D环境。该技术解决了AI生成内容中长期存在的空间一致性问题和物体随时间漂移现象。通过Hugging Face平台提供的这一工具,有望通过创建持久可扩展的世界彻底改变游戏开发、虚拟环境构建和机器人训练领域,这些世界可直接用于实时渲染与模拟。

April 20, 2026
AI生成3DNVIDIA研究院Lyra 2.0
News

NVIDIA Lyra 2.0:从单张快照创建广阔3D世界

NVIDIA研究团队发布了Lyra 2.0,这是一款先进的3D场景生成系统,仅需一张照片即可构建庞大的虚拟环境。该技术能创建连贯的90米数字景观,同时解决传统失真问题。基准测试显示Lyra 2.0在图像质量和相机控制方面优于竞争对手,其快速版本效率提升13倍。该系统与Nvidia Isaac Sim等物理引擎无缝集成,为机器人训练和AI开发开辟了新可能。

April 17, 2026
NVIDIA3D生成AI创新
蚂蚁集团羚搏科技开源突破性3D建图工具
News

蚂蚁集团羚搏科技开源突破性3D建图工具

蚂蚁集团旗下羚搏科技宣布开源其革命性产品LingBot-Map,该系统仅需普通摄像头即可实现实时3D场景重建。与需要专业设备或后期处理的前沿技术不同,这项创新能在视频拍摄过程中即时运算,达到惊人的20帧/秒处理速度。该技术有望通过降低高质量空间建图门槛,彻底改变从机器人到增强现实等多个领域。

April 16, 2026
三维重建计算机视觉蚂蚁集团
腾讯视频技术突破:生成速度提升11.8倍
News

腾讯视频技术突破:生成速度提升11.8倍

腾讯混元团队通过全新DisCa技术攻克了视频生成速度慢的难题,在不损失画质的情况下实现了惊人的11.8倍速度提升。这项被顶级计算机视觉会议CVPR 2026收录的开源方案,引入了智能特征预测技术,彻底改变了AI生成视频的方式。该团队还改进了MIT的方法,使其更适用于复杂视频任务,成果已应用于其最新视频生成模型。

April 16, 2026
AI视频生成腾讯研究计算机视觉
京东发布用于下一代机器人技术的尖端AI训练摄像头
News

京东发布用于下一代机器人技术的尖端AI训练摄像头

京东推出了创新性数据采集设备JoyEgoCam,旨在通过真实世界观察来训练AI系统。这款工业级摄像头能以每秒60帧的速度拍摄超高清画面,使机器能够学习细微动作和环境变化。此次发布是京东雄心勃勃计划的一部分,目标是在两年内收集1000万小时的视频数据,有望彻底改变仓储自动化和物流机器人技术。

April 16, 2026
AI训练机器人技术计算机视觉
谷歌AI重大突破:让机器像人类一样观察世界
News

谷歌AI重大突破:让机器像人类一样观察世界

Google DeepMind通过其新推出的TIPSv2系统攻克了AI视觉领域的一大难题。当前模型虽能大致描述图像内容,但在精确定位细节(如熊猫左后腿位置)时仍显不足。这项突破源于一个意外发现:在分割任务中,小型模型有时反而胜过大型模型。通过优化训练方法并减少计算开销,TIPSv2在减少42%参数量的同时,分割准确率提升了14%。这一进展可能为从医学影像到自动驾驶等多个领域带来革命性变化。

April 16, 2026
计算机视觉机器学习AI研究