腾讯与中国人民大学联手开源AI规划工具
新工具衡量AI的规划能力
在人工智能发展的重要举措中,腾讯的混元团队与中国人民大学高瓴研究院的研究人员合作推出了PlanningBench——一个测试AI规划能力的开源框架。

PlanningBench的工作原理
该系统创建了超过30种规划挑战的真实场景,系统性地变化任务复杂度、约束条件和可用资源等因素。其独特之处在于关注现实世界的适用性,测试类别包括:
- 调度(会议、交通)
- 资源分配(预算、材料)
- 人员安排
- 路线优化
- 制造工作流程
- 应急响应规划
开发团队解释说:“我们希望超越简单的问答评估,PlanningBench揭示了AI在面对相互竞争的优先事项和有限资源时,是否能像人类日常所做的那样,真正制定出可行的解决方案。”
这对AI发展的重要性
传统的AI测试往往陷入研究人员所称的“钻题陷阱”——模型在狭窄的测试集上表现良好,但在现实世界的复杂性中却举步维艰。PlanningBench通过以下方式解决了这个问题:
- 难度扩展:任务可以根据多个变量调整,而不仅仅是延长问题
- 验证系统:每个测试都包含检查清单,以验证解决方案是否满足所有要求
- 全局评估:捕捉部分正确但整体失败的规划
早期结果显示出希望。使用PlanningBench可验证数据训练的模型在专业规划任务和通用AI基准测试中都表现出了改进的性能。一位研究人员指出:“这就像卸掉了训练轮,我们看到技能在新情境中的迁移效果更好。”
该框架的开源性质意味着全球开发者可以贡献新的测试场景,可能加速AI规划能力的进步。对企业而言,这可能意味着更智能的调度系统、更高效的资源管理和更好的危机应对工具。
关键要点
- 开放合作:腾讯与中国顶尖大学的联合项目
- 现实世界焦点:测试模型基于实际规划挑战
- 全面评估:衡量局部合规性和整体规划可行性
- 训练优势:提升AI在多样化任务上的表现
- 开放访问:框架可供社区贡献和改进