15个AI项目获Slingshot资助,致力解决评估难题
Laud研究所资助15支团队革新AI评估体系
Laud研究所本周推出的Slingshot AI资助计划引发轰动,该计划遴选了15个前景广阔的项目,旨在攻克人工智能领域最持久的挑战之一:我们如何真正判断一个AI系统是否运行良好?

超越传统基准测试
与典型的学术资助不同,Slingshot为研究人员提供了资金、计算能力和工程支持的罕见组合——这些资源有助于更快地将理论概念转化为实际解决方案。作为回报,团队必须交付具体成果,无论是创办初创企业、开源工具还是可发表的研究成果。
"我们看到许多绝妙的想法困在学术论文中,因为研究人员缺乏规模化测试的基础设施,"Laud研究所发言人解释道,"Slingshot消除了这些障碍。"
引发关注的入选项目
其中突出的项目包括:
- Terminal Bench:一个已在开发者中广受欢迎的命令行编码基准测试
- ARC-AGI:评估通用AI能力的权威框架最新版本
- Formula Code:加州理工与德克萨斯大学奥斯汀分校合作测试AI优化现有代码的能力
- BizBench:哥伦比亚大学为"白领"AI代理建立商业决策标准的雄心尝试
有影响力的SWE-Bench编码评估系统联合创始人John Boda Yang正在领导名为CodeClash的新项目,其灵感来自竞技编程。"动态竞争能展现静态基准测试无法揭示的优势,"Yang告诉TechCrunch,"但我们需要确保评估保持开放性——由单一公司控制的专有标准可能会阻碍进步。"
为何评估至关重要
随着AI系统承担更复杂的任务,传统测试方法往往力不从心。一个能通过编码挑战的AI也能做出明智的商业决策吗?我们如何比较专用模型与通用模型?Slingshot项目探索了多种方法,包括:
- 强化学习框架
- 模型压缩技术
- 真实世界性能指标
该计划代表着对创建与AI快速发展同步的评估标准的重大投资——许多人认为这对技术进步和负责任的发展都至关重要。
关键要点:
- Slingshot AI资助计划首届选出15个项目
- 专注于开发跨领域评估AI系统的更好方法
- 既有成熟基准测试也有新颖方法
- 将学术研究与产业级资源相结合
- 旨在防止专有标准主导该领域



