Gemini领跑全球AI视觉竞赛，中国模型崭露头角欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

Gemini领跑全球AI视觉竞赛，中国模型崭露头角

AI视觉霸权争夺战升温

最新的SuperCLUE-VLM12基准测试描绘出当今多模态AI领域的精彩图景。谷歌Gemini-3-pro不仅领跑全场——更以83.64分的统治级表现全面改写各项评估标准。

国内挑战者崛起

本次竞赛特别引人注目的是中国模型的强劲表现。商汤科技的SenseNova V6.5Pro以75.35分夺得亚军，在视觉推理任务中展现特殊优势；字节跳动的抖音视觉版则以73.15分跻身前三，甚至在基础认知测试中超越多个国际竞争对手。

"这些结果印证了中国在计算机视觉技术领域日益增长的实力"，清华大学AI研究员李伟博士指出，"三年前我们根本看不到国产模型能达到这种竞争水平"。

意外与突破

本次基准测试呈现多个重要动态：

开源里程碑：阿里巴巴的Qwen3-vl成为首个突破70分大关的开源模型（70.89分），为开发者社区提供强大的视觉分析能力
老牌选手失利：Anthropic的Claude-opus-4-5仅获71.44分，而OpenAI的GPT-5.2（高级版）69.16分的表现更是远低于行业预期
百度稳守阵地：ERNIE-5.0-Preview保持第五名的成绩，延续中国模型的强势表现

对AI发展的启示

结果表明我们正在进入新阶段： 1) 视觉理解能力正成为区分模型的关键要素 2) 专有解决方案与开源方案之间的差距正在缩小 3) AI领域的传统实力排名未必适用于视觉能力评估

"我们看到专业化趋势正在形成"，MIT教授Alan Chen解释道，"某些优化文本处理的模型在视觉任务中表现挣扎，而像Gemini这样明显优先多模态训练的模型则表现出色"。

核心要点：

全球领跑者：Gemini-3-pro在基础认知（84.2）、视觉推理（83.1）和应用（83.6）三大领域均获最高分
中国进步：两款国产模型现已跻身全球视觉基准测试前三强
开源进展：Qwen3-vl为社区开发的视觉模型开辟新天地
格局变迁：GPT等传统领军者在视觉任务中显现意外短板

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

NVIDIA Lyra 2.0：将单张图片转化为广阔3D世界

NVIDIA发布了开源框架Lyra 2.0，可将单张图像转换为细节丰富、可自由行走的3D环境。该技术解决了AI生成内容中长期存在的空间一致性问题和物体随时间漂移现象。通过Hugging Face平台提供的这一工具，有望通过创建持久可扩展的世界彻底改变游戏开发、虚拟环境构建和机器人训练领域，这些世界可直接用于实时渲染与模拟。

April 20, 2026

AI生成3DNVIDIA研究院Lyra 2.0

News

NVIDIA Lyra 2.0：从单张快照创建广阔3D世界

NVIDIA研究团队发布了Lyra 2.0，这是一款先进的3D场景生成系统，仅需一张照片即可构建庞大的虚拟环境。该技术能创建连贯的90米数字景观，同时解决传统失真问题。基准测试显示Lyra 2.0在图像质量和相机控制方面优于竞争对手，其快速版本效率提升13倍。该系统与Nvidia Isaac Sim等物理引擎无缝集成，为机器人训练和AI开发开辟了新可能。

April 17, 2026

NVIDIA3D生成AI创新

News

蚂蚁集团羚搏科技开源突破性3D建图工具

蚂蚁集团旗下羚搏科技宣布开源其革命性产品LingBot-Map，该系统仅需普通摄像头即可实现实时3D场景重建。与需要专业设备或后期处理的前沿技术不同，这项创新能在视频拍摄过程中即时运算，达到惊人的20帧/秒处理速度。该技术有望通过降低高质量空间建图门槛，彻底改变从机器人到增强现实等多个领域。

April 16, 2026

三维重建计算机视觉蚂蚁集团

News

腾讯视频技术突破：生成速度提升11.8倍

腾讯混元团队通过全新DisCa技术攻克了视频生成速度慢的难题，在不损失画质的情况下实现了惊人的11.8倍速度提升。这项被顶级计算机视觉会议CVPR 2026收录的开源方案，引入了智能特征预测技术，彻底改变了AI生成视频的方式。该团队还改进了MIT的方法，使其更适用于复杂视频任务，成果已应用于其最新视频生成模型。

April 16, 2026

AI视频生成腾讯研究计算机视觉

News

京东发布用于下一代机器人技术的尖端AI训练摄像头

京东推出了创新性数据采集设备JoyEgoCam，旨在通过真实世界观察来训练AI系统。这款工业级摄像头能以每秒60帧的速度拍摄超高清画面，使机器能够学习细微动作和环境变化。此次发布是京东雄心勃勃计划的一部分，目标是在两年内收集1000万小时的视频数据，有望彻底改变仓储自动化和物流机器人技术。

April 16, 2026

AI训练机器人技术计算机视觉

News

谷歌AI重大突破：让机器像人类一样观察世界

Google DeepMind通过其新推出的TIPSv2系统攻克了AI视觉领域的一大难题。当前模型虽能大致描述图像内容，但在精确定位细节（如熊猫左后腿位置）时仍显不足。这项突破源于一个意外发现：在分割任务中，小型模型有时反而胜过大型模型。通过优化训练方法并减少计算开销，TIPSv2在减少42%参数量的同时，分割准确率提升了14%。这一进展可能为从医学影像到自动驾驶等多个领域带来革命性变化。

April 16, 2026

计算机视觉机器学习AI研究

Gemini领跑全球AI视觉竞赛，中国模型崭露头角

AI视觉霸权争夺战升温

国内挑战者崛起

意外与突破

对AI发展的启示

核心要点：

喜欢这篇文章？

相关文章

NVIDIA Lyra 2.0：将单张图片转化为广阔3D世界

NVIDIA Lyra 2.0：从单张快照创建广阔3D世界

蚂蚁集团羚搏科技开源突破性3D建图工具

腾讯视频技术突破：生成速度提升11.8倍

京东发布用于下一代机器人技术的尖端AI训练摄像头

谷歌AI重大突破：让机器像人类一样观察世界

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

LoveGen AI：即时生成图像与视频的创意助手

ChatGPT Atlas - AI驱动的浏览器

Nvidia 推出新 AI 安全功能以加强聊天机器人

Wittro：面向面试与会议场景的隐形AI助手

主要页面

内容分类

其他