跳转到主要内容

字节跳动AI数学家获得金牌级分数

字节跳动AI在国际数学奥赛中取得突破

字节跳动Seed AI团队开发的数学推理模型正引起学术界瞩目。其Seed Prover 1.5模型近期展现出媲美顶尖人类数学家的能力,在国际数学奥林匹克竞赛(IMO)中以金牌级别解答了难题。

成就解析

该模型仅用16.5小时就解决了IMO2025六道题目中的五道,获得35分的高分——这在人类选手中足以斩获金牌。Image 相比字节跳动前代模型需要三天解决四道题且仅达银牌水平,此次进步显著。

"最令人振奋的是",与该项目无关的AI研究员李伟博士表示,"这些模型在曾被视作人类专属领域的复杂推理任务上正以惊人速度进步"。

突破性技术揭秘

成功秘诀?大规模强化学习使Seed Prover 1.5的正确率从练习题的50%跃升至近90%。该模型不仅征服了IMO,还在北美大学生闻风丧胆的普特南竞赛中创下纪录。

两大创新铸就了这个数学奇才:

  1. 智能证明器:使用Lean等形式化数学语言生成可验证证明——相当于为AI数学家打造了可同行评审的工作成果。
  2. 草图模型:模拟人类解题思维,先创建非正式草稿再转化为正式证明。

Image

草图模型的运作方式如同数学家先在草稿纸上推演思路再撰写最终解答。通过混合奖励信号强化学习,它同时提升了整体规划能力并降低了复杂度壁垒。

超越竞赛的实际应用

虽然竞赛表现抢眼,但真正价值在于潜在应用场景:

  • 辅助数学家完成复杂证明
  • 验证数学论证过程
  • 展示解题思路的教育工具

团队已将研究成果发表在arXiv的技术论文中(https://arxiv.org/pdf/2512.17260),欢迎AI与数学界共同审视。

核心要点:

  • 金牌表现:以IMO2025金牌级别(35/42分)解答问题
  • 速度飞跃:16.5小时完成解题 vs 前代模型的三天耗时
  • 技术创新:智能证明器与草图模型复现人类推理流程
  • 深远影响:可能变革数学研究与教学方法论

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

智谱AI香港上市首日飙升42%
News

智谱AI香港上市首日飙升42%

智谱AI在农历新年首个交易日以42.7%的惊人涨幅震撼投资者,市值突破3230亿港元。这家中国AI企业的强劲表现与竞争对手MINIMAX相呼应,显示出市场对中国人工智能板块的旺盛需求。智谱新推出的GLM-5模型和高端定价策略似乎赢得了市场信心。

February 20, 2026
人工智能港股中国科技
News

京东发布高效能JoyAI-LLM-Flash AI模型,实现突破性效率

中国电商巨头京东发布了其最新人工智能模型JoyAI-LLM-Flash,该模型拥有令人印象深刻的能力和创新优化技术。该模型具备48亿参数,基于海量数据集训练而成,在推理和编程任务中表现出色。其独到之处在于新颖的FiberPO框架显著提升了训练稳定性和速度——为京东庞大的商业生态系统提供了潜在应用场景。

February 16, 2026
人工智能机器学习京东
豆包AI更智能也更便宜:2.0版本大幅降低成本
News

豆包AI更智能也更便宜:2.0版本大幅降低成本

火山引擎的豆包大模型迎来重大升级。全新2.0版本在全面提升性能的同时,将推理成本降低了90%。四个专精模型满足不同需求,超越Gemini等竞品的多模态理解能力,以及增强的编程功能,使豆包成为AI领域的强力竞争者。开发者将受益于新开放的API接口和亲民定价策略。

February 14, 2026
AI开发机器学习科技创新
蚂蚁集团万亿参数AI模型取得新突破
News

蚂蚁集团万亿参数AI模型取得新突破

蚂蚁集团发布具有里程碑意义的万亿参数AI模型Ring-2.5-1T,该开源模型在数学推理和长文本处理方面树立了新标杆。这款突破性模型在复杂任务中超越竞争对手,同时显著提升效率——从解决奥数级别数学题到驱动AI助手,标志着人工智能能力的重大飞跃。

February 13, 2026
AI创新机器学习开源技术
News

谷歌Gemini 3将AI推理能力推向科学新高度

谷歌发布Gemini 3 Deep Think,标志着AI能力在日常对话之外的重大飞跃。这款专业模型以奥林匹克竞赛级别的推理能力解决复杂科学问题,在数学和编程挑战中表现惊人。现已面向精选研究人员和Google AI Ultra订阅用户开放,有望从基准测试冠军转型为真正的实验室伙伴。

February 13, 2026
AI研究机器学习科学计算
News

Anthropic豪揽300亿美元融资,预示AI投资热潮

AI初创公司Anthropic以惊人的300亿美元融资打破了资金记录,估值飙升至3800亿美元。在Coatue和新加坡GIC的领投下,这笔巨额资金将用于计算基础设施和尖端研究,该公司正全力挑战OpenAI的统治地位。尽管有人质疑这些令人瞠目的数字是否预示着AI泡沫,但投资者显然将Anthropic视为通往人工通用智能竞赛的主要竞争者。

February 13, 2026
人工智能风险投资科技行业