跳转到主要内容

港大与美团携手CodePlot-CoT突破AI数学能力

港大与美团重大突破:AI通过代码可视化解决数学难题

尽管大型语言模型在文本任务中表现出色,但历来难以应对数学几何问题。香港大学(HKU)与美团的最新合作研究提出了CodePlot-CoT——一种通过代码驱动视觉推理填补这一空白的创新方案。

核心挑战

当面对需要几何可视化或函数绘图的问题时,GPT-4.1和Gemini-2.5-Pro等传统AI模型表现欠佳。虽然这些模型擅长文本推理链,但对于必须遵循严格几何约束的角度、比例和位置等数学图形需求,它们缺乏必要的精确度。

Image

CodePlot-CoT解决方案

研究团队实现了范式转变:

  1. 代码生成:不再尝试直接创建图像,而是编写可执行的绘图代码(如Python的Matplotlib)
  2. 精确渲染:代码在Python环境中执行以生成准确图表
  3. 整合推理:模型将这些代码生成的视觉元素重新纳入问题解决链

该方法利用了AI现有的编程优势,同时避免了不可靠的像素级图像生成。

关键技术组件

该项目引入两项关键创新:

  1. Math-VR数据集:包含178,000道双语数学题(81%聚焦几何),需在推理同时进行主动绘图
  2. MatplotCode转换器:将数学图形转化为精确绘图代码的专业工具,在保真度测试中超越商业模型

Image

性能突破

结果显示出显著改进:

  • 在Math-VR基准测试中比基础模型性能提升21%
  • 若无此方法,即便是Gemini-2.5-Pro等先进闭源模型仍有三分之一测试题失败 研究表明仅扩大模型规模无法解决视觉数学推理——精确的代码驱动方法不可或缺。

对AI发展的启示

CodePlot-CoT的成功意味着:

  • 未来多模态系统应优先考虑程序化精确度而非拟人化可视化
  • 应用可延伸至工程设计和科学计算等精度至关重要的领域 团队已开源全部数据集、代码和预训练模型以加速后续研究。

核心要点:

  • 传统AI难以处理数学问题中的几何精度要求
  • CodePlot-CoT用可执行绘图代码替代不可靠的图像生成
  • 新型Math-VR数据集要求解题时同步进行主动绘图
  • 相较传统方法带来21%的性能提升
  • 开源发布促进AI社区广泛采用

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

GPT-5以首个独立证明创造数学历史
News

GPT-5以首个独立证明创造数学历史

在人工智能研究的里程碑时刻,GPT-5在无人指导的情况下独立解决了一个复杂数学问题。瑞士数学家约翰内斯·施密特透露了这一突破,指出该AI运用了来自代数几何非预期领域的创造性方法。这一成就验证了数学家陶哲轩的预测,同时引发了关于AI在学术研究中的角色以及科学出版中新署名标准必要性的讨论。

December 23, 2025
人工智能研究数学机器学习
上海研究人员借助AI突破打破光子芯片研发壁垒
News

上海研究人员借助AI突破打破光子芯片研发壁垒

上海交通大学CHIPX研究所发布了革命性AI模型LightSeek,将光子芯片研发周期从数月缩短至数周。该系统利用其先进试验线的实际生产数据,如同一位不知疲倦的专家,在制造开始前就能预测问题并优化设计。早期测试显示显著成效——某项目仅用四周就完成,而通常需要六个月。

December 9, 2025
光子学人工智能研究半导体
粤语迈向数字化:AI平台守护文化瑰宝
News

粤语迈向数字化:AI平台守护文化瑰宝

广州大学发布了一项突破性AI平台,致力于保护全球数百万人使用的粤语。AI-DimSum语料库汇集了从经典电影到现代新闻的文本、音频和视频材料,为这一文化丰富的方言创建了最全面的数字资源。这项创新解决了粤语在数字空间中代表性不足的挑战,同时为AI应用和文化保护开辟了新途径。

December 8, 2025
粤语保护AI语言模型数字人文
商汤科技NEO以更精简、更快速的人工智能突破多模态壁垒
News

商汤科技NEO以更精简、更快速的人工智能突破多模态壁垒

商汤科技与南洋理工大学S-Lab联合推出突破性多模态AI架构NEO,摒弃传统拼凑式设计。这一创新方法将数据需求削减90%,同时在关键基准测试中超越竞争对手。通过从注意力机制到位置编码的全面革新,NEO在低于80毫秒延迟下实现闪电级边缘设备性能。开源模型或将重新定义紧凑型AI系统的构建方式。

December 3, 2025
AI创新多模态学习边缘计算
阿里巴巴Qwen3-VL在空间推理测试中超越竞争对手
News

阿里巴巴Qwen3-VL在空间推理测试中超越竞争对手

阿里巴巴的Qwen3-VL视觉模型在空间推理基准测试中取得领先,在SpatialBench上获得13.5分——显著优于Gemini和GPT-5.1等竞争对手。该模型引入了3D检测升级和视觉编程能力等创新功能,其实际应用已在物流和智能港口中进行测试。虽然距离人类表现(80分)仍有差距,但这一进展标志着向更具空间感知能力的AI系统迈出了重要一步。

November 26, 2025
计算机视觉人工智能研究空间计算
AI在物理谜题面前表现不佳:顶尖模型得分低于10%
News

AI在物理谜题面前表现不佳:顶尖模型得分低于10%

一个全球物理学家团队用未发表的研究挑战对领先的AI模型进行了测试。结果如何?即使表现最佳的模型也无法达到两位数的准确率。虽然Google的Gemini3Pro以9.1%的成绩位居榜首,但这些系统仍需要人工监督才能进行可靠的科学研究。研究结果表明,至少在目前阶段,AI更适合作为研究助手而非独立的科学家。

November 24, 2025
人工智能研究物理学突破技术局限性