跳转到主要内容

15个AI项目获Slingshot资助,致力解决评估难题

Laud研究所资助15支团队革新AI评估体系

Laud研究所本周推出的Slingshot AI资助计划引发轰动,该计划遴选了15个前景广阔的项目,旨在攻克人工智能领域最持久的挑战之一:我们如何真正判断一个AI系统是否运行良好?

Image

超越传统基准测试

与典型的学术资助不同,Slingshot为研究人员提供了资金、计算能力和工程支持的罕见组合——这些资源有助于更快地将理论概念转化为实际解决方案。作为回报,团队必须交付具体成果,无论是创办初创企业、开源工具还是可发表的研究成果。

"我们看到许多绝妙的想法困在学术论文中,因为研究人员缺乏规模化测试的基础设施,"Laud研究所发言人解释道,"Slingshot消除了这些障碍。"

引发关注的入选项目

其中突出的项目包括:

  • Terminal Bench:一个已在开发者中广受欢迎的命令行编码基准测试
  • ARC-AGI:评估通用AI能力的权威框架最新版本
  • Formula Code:加州理工与德克萨斯大学奥斯汀分校合作测试AI优化现有代码的能力
  • BizBench:哥伦比亚大学为"白领"AI代理建立商业决策标准的雄心尝试

有影响力的SWE-Bench编码评估系统联合创始人John Boda Yang正在领导名为CodeClash的新项目,其灵感来自竞技编程。"动态竞争能展现静态基准测试无法揭示的优势,"Yang告诉TechCrunch,"但我们需要确保评估保持开放性——由单一公司控制的专有标准可能会阻碍进步。"

为何评估至关重要

随着AI系统承担更复杂的任务,传统测试方法往往力不从心。一个能通过编码挑战的AI也能做出明智的商业决策吗?我们如何比较专用模型与通用模型?Slingshot项目探索了多种方法,包括:

  • 强化学习框架
  • 模型压缩技术
  • 真实世界性能指标

该计划代表着对创建与AI快速发展同步的评估标准的重大投资——许多人认为这对技术进步和负责任的发展都至关重要。

关键要点:

  • Slingshot AI资助计划首届选出15个项目
  • 专注于开发跨领域评估AI系统的更好方法
  • 既有成熟基准测试也有新颖方法
  • 将学术研究与产业级资源相结合
  • 旨在防止专有标准主导该领域

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

DeepSeek发现更智能的AI未必需要更大的模型

DeepSeek最新研究揭示了人工智能发展的重大突破——优化神经网络架构比单纯扩大模型规模更能有效提升推理能力。他们创新的'流形约束超连接'方法在仅增加极小训练成本的情况下,将复杂推理准确率提高了7%以上,挑战了业界对不断增大模型的执着追求。

January 4, 2026
AI研究机器学习神经网络
印度Alpie AI模型引发热议——但它真的源自本土吗?
News

印度Alpie AI模型引发热议——但它真的源自本土吗?

印度新晋AI竞争者Alpie凭借在数学和编程测试中媲美GPT-4o和Claude3.5等巨头的表现引发关注。然而技术分析显示其实际基于中国开源模型构建,引发了关于创新与优化的讨论。Alpie的特殊之处在于能在消费级硬件上高效运行,有望为中小开发者降低AI使用门槛。

January 15, 2026
AI机器学习印度科技
DeepSeek-V4将于今年二月彻底革新代码生成领域
News

DeepSeek-V4将于今年二月彻底革新代码生成领域

DeepSeek正筹备在农历新年期间推出其强大的新型AI模型DeepSeek-V4。此次更新将在代码生成和处理复杂编程任务方面实现重大突破,有望超越Claude和GPT系列等竞争对手。开发者可以期待这款创新工具提供更有条理的响应和更强的推理能力。

January 12, 2026
AI发展编程工具机器学习
中国研究人员教会AI在图像生成中自我纠错
News

中国研究人员教会AI在图像生成中自我纠错

中国高校取得突破性进展,解决了AI的'视觉读写障碍'——图像系统能理解概念却难以正确呈现的问题。他们的UniCorn框架如同内部质检团队,能在创作过程中捕捉并修正错误。早期测试显示其在空间准确性和细节处理方面有显著提升。

January 12, 2026
AI创新计算机视觉机器学习
Falcon H1R7B:小巧AI模型性能超越大型竞争对手
News

Falcon H1R7B:小巧AI模型性能超越大型竞争对手

阿布扎比创新研究院发布了Falcon H1R7B,这款拥有70亿参数的开源语言模型出人意料地强大,正在改写AI性能的规则。通过将创新训练技术与混合架构相结合,这个灵活的竞争者提供的推理能力可与两倍于其大小的模型相媲美。现已在Hugging Face上提供,对于需要高效AI解决方案的开发者来说可能是一个改变游戏规则的产品。

January 6, 2026
AI创新语言模型机器学习
News

Google DeepMind预测AI的下一次飞跃:2026年前实现持续学习

Google DeepMind研究人员预测,到2026年AI将实现持续学习能力,这将成为人工智能发展的关键转折点。这一突破将使AI系统无需人类干预即可自主获取新知识,可能彻底改变从编程到科学研究的各个领域。该技术基于NeurIPS 2025展示的最新进展,有望在2030年实现全自动编程,并在本世纪中叶实现诺贝尔级别的AI驱动研究。

January 4, 2026
AI进化机器学习未来科技