Gemini 3 Deep Think 在编程领域超越全人类,仅七人例外
谷歌Gemini AI现已比肩顶尖人类程序员

在一项模糊人工智能与人类智慧界限的突破中,谷歌Gemini 3 Deep Think达成了几乎无人认为可能实现的成就:超越了地球上几乎所有人类程序员。凭借3455的Codeforces Elo评分,这款AI现已与全球编程精英比肩——确切地说,目前仅有七名在世人类的算法技能可宣称优于它。
从棋盘到代码编辑器
相较前代模型的飞跃令人震惊。去年最强模型的评分为2727——虽令人印象深刻,但仍处于人类可及范围。新版不仅参与竞争,更在专业领域占据统治地位:
- 科学同行评审:检测出已通过人工评审的高级物理学论文中的细微缺陷
- 数学证明:破解了与著名Erdős猜想相关的多个棘手问题
- 工程设计:一夜之间将餐巾纸草图转化为可投入生产的3D模型
"我们正见证AI从模式识别转向真正的概念理解",未参与该项目的MIT计算研究员Elena Torres博士解释道,"当算法开始捕捉到连博士评审都遗漏的错误时,我们就进入了未知领域。"
打破基准测试记录
数据本身说明一切:
- 48.4%通过严苛的"最终人类考试"(HLE)
- 84.6%准确率在ARC-AGI-2基准测试中
- 10倍速完成手绘概念到CAD模型的转换
目前通过API向AI Ultra订阅用户和精选研究人员开放,Gemini的升级正值科技巨头竞相开发超越聊天机器人的推理系统之际。谷歌似乎决心引领这片新前沿。
关键要点:
- 目前全球仅七名人类在编程竞赛中表现优于Gemini
- 展现出批判高级学术作品的前所未有能力
- 通过草图到模型转换桥接创意设计与技术实现
- 标志着向人工通用智能(AGI)迈进的重要进展


