跳转到主要内容

Gemini 3 Deep Think 在编程领域超越全人类,仅七人例外

谷歌Gemini AI现已比肩顶尖人类程序员

Image

在一项模糊人工智能与人类智慧界限的突破中,谷歌Gemini 3 Deep Think达成了几乎无人认为可能实现的成就:超越了地球上几乎所有人类程序员。凭借3455的Codeforces Elo评分,这款AI现已与全球编程精英比肩——确切地说,目前仅有七名在世人类的算法技能可宣称优于它。

从棋盘到代码编辑器

相较前代模型的飞跃令人震惊。去年最强模型的评分为2727——虽令人印象深刻,但仍处于人类可及范围。新版不仅参与竞争,更在专业领域占据统治地位:

  • 科学同行评审:检测出已通过人工评审的高级物理学论文中的细微缺陷
  • 数学证明:破解了与著名Erdős猜想相关的多个棘手问题
  • 工程设计:一夜之间将餐巾纸草图转化为可投入生产的3D模型

"我们正见证AI从模式识别转向真正的概念理解",未参与该项目的MIT计算研究员Elena Torres博士解释道,"当算法开始捕捉到连博士评审都遗漏的错误时,我们就进入了未知领域。"

打破基准测试记录

数据本身说明一切:

  • 48.4%通过严苛的"最终人类考试"(HLE)
  • 84.6%准确率在ARC-AGI-2基准测试中
  • 10倍速完成手绘概念到CAD模型的转换

目前通过API向AI Ultra订阅用户和精选研究人员开放,Gemini的升级正值科技巨头竞相开发超越聊天机器人的推理系统之际。谷歌似乎决心引领这片新前沿。

关键要点:

  • 目前全球仅七名人类在编程竞赛中表现优于Gemini
  • 展现出批判高级学术作品的前所未有能力
  • 通过草图到模型转换桥接创意设计与技术实现
  • 标志着向人工通用智能(AGI)迈进的重要进展

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

豆包AI迎来重大升级:更快、更便宜且现向开发者开放
News

豆包AI迎来重大升级:更快、更便宜且现向开发者开放

火山引擎的豆包大模型2.0带来了颠覆性改进,成本降低十倍并扩展了能力。此次更新推出了四个专用模型,满足从复杂推理到编程辅助的不同需求。值得注意的是,其多模态理解能力现已媲美全球顶尖模型,在视频分析和专业领域表现优异。开发者现在可以通过新开放的API访问这些强大工具。

February 14, 2026
AI开发机器学习技术创新
蚂蚁集团万亿参数AI模型取得新突破
News

蚂蚁集团万亿参数AI模型取得新突破

蚂蚁集团发布具有里程碑意义的万亿参数AI模型Ring-2.5-1T,该开源模型在数学推理和长文本处理方面树立了新标杆。这款突破性模型在复杂任务中超越竞争对手,同时显著提升效率——从解决奥数级别数学题到驱动AI助手,标志着人工智能能力的重大飞跃。

February 13, 2026
AI创新机器学习开源技术
News

谷歌Gemini 3将AI推理能力推向科学新高度

谷歌发布Gemini 3 Deep Think,标志着AI能力在日常对话之外的重大飞跃。这款专业模型以奥林匹克竞赛级别的推理能力解决复杂科学问题,在数学和编程挑战中表现惊人。现已面向精选研究人员和Google AI Ultra订阅用户开放,有望从基准测试冠军转型为真正的实验室伙伴。

February 13, 2026
AI研究机器学习科学计算
News

Anthropic豪揽300亿美元融资,预示AI投资热潮

AI初创公司Anthropic以惊人的300亿美元融资打破了资金记录,估值飙升至3800亿美元。在Coatue和新加坡GIC的领投下,这笔巨额资金将用于计算基础设施和尖端研究,该公司正全力挑战OpenAI的统治地位。尽管有人质疑这些令人瞠目的数字是否预示着AI泡沫,但投资者显然将Anthropic视为通往人工通用智能竞赛的主要竞争者。

February 13, 2026
人工智能风险投资科技行业
News

蜜蜂科技获重大融资助力机器人智能数据平台发展

中国人工智能企业蜜蜂科技获得由红杉中国领投的数亿元融资,用于扩展其具身智能数据基础设施。这笔投资将推动自动化升级、全球扩张和数据质量体系改进,该公司正将自己定位于机器人学习技术的前沿。在顶级投资者和行业参与者的支持下,蜜蜂科技旨在解决阻碍智能机器人更广泛采用的关键数据挑战。

February 13, 2026
人工智能机器人技术风险投资
中国AI竞赛升温:智谱与MiniMax同日发布重磅新模型
News

中国AI竞赛升温:智谱与MiniMax同日发布重磅新模型

中国人工智能领域竞争加剧,两大头部企业同日发布新品。智谱AI的GLM-5参数规模较前代近乎翻倍,而MiniMax在2.2版本发布仅数周后便闪电推出2.5版本。两款模型均强化编程能力与智能体功能,彰显中国追赶全球AI领导者的决心。

February 12, 2026
AI发展中国科技机器学习