港大与美团携手CodePlot-CoT突破AI数学能力
港大与美团重大突破:AI通过代码可视化解决数学难题
尽管大型语言模型在文本任务中表现出色,但历来难以应对数学几何问题。香港大学(HKU)与美团的最新合作研究提出了CodePlot-CoT——一种通过代码驱动视觉推理填补这一空白的创新方案。
核心挑战
当面对需要几何可视化或函数绘图的问题时,GPT-4.1和Gemini-2.5-Pro等传统AI模型表现欠佳。虽然这些模型擅长文本推理链,但对于必须遵循严格几何约束的角度、比例和位置等数学图形需求,它们缺乏必要的精确度。

CodePlot-CoT解决方案
研究团队实现了范式转变:
- 代码生成:不再尝试直接创建图像,而是编写可执行的绘图代码(如Python的Matplotlib)
- 精确渲染:代码在Python环境中执行以生成准确图表
- 整合推理:模型将这些代码生成的视觉元素重新纳入问题解决链
该方法利用了AI现有的编程优势,同时避免了不可靠的像素级图像生成。
关键技术组件
该项目引入两项关键创新:
- Math-VR数据集:包含178,000道双语数学题(81%聚焦几何),需在推理同时进行主动绘图
- MatplotCode转换器:将数学图形转化为精确绘图代码的专业工具,在保真度测试中超越商业模型

性能突破
结果显示出显著改进:
- 在Math-VR基准测试中比基础模型性能提升21%
- 若无此方法,即便是Gemini-2.5-Pro等先进闭源模型仍有三分之一测试题失败 研究表明仅扩大模型规模无法解决视觉数学推理——精确的代码驱动方法不可或缺。
对AI发展的启示
CodePlot-CoT的成功意味着:
- 未来多模态系统应优先考虑程序化精确度而非拟人化可视化
- 应用可延伸至工程设计和科学计算等精度至关重要的领域 团队已开源全部数据集、代码和预训练模型以加速后续研究。
核心要点:
- 传统AI难以处理数学问题中的几何精度要求
- CodePlot-CoT用可执行绘图代码替代不可靠的图像生成
- 新型Math-VR数据集要求解题时同步进行主动绘图
- 相较传统方法带来21%的性能提升
- 开源发布促进AI社区广泛采用





