跳转到主要内容

美团推出VitaBench:AI智能体评估新标准

美团龙猫团队推出VitaBench:AI智能体评估新标准

美团龙猫研究团队正式发布VitaBench综合基准测试框架,专门用于评估智能体在现实生活多交互任务中的表现。该框架重点针对外卖送餐、餐厅就餐、旅行规划等高频率应用场景。

解决现实世界AI挑战

当前AI系统在复杂场景中表现出明显局限性。据龙猫团队研究显示,即使是领先的推理模型在跨场景任务中的成功率也低于30%。VitaBench旨在弥合实验室表现与实际应用需求之间的差距。

Image

全方位评估框架

VitaBench核心特性包括:

  • 66种交互工具模拟真实世界服务
  • 购票、餐厅预订等复杂任务模拟
  • 三维度评估标准:
    1. 推理复杂度:衡量信息整合需求与观察空间大小
    2. 工具复杂度:评估依赖关系与调用链长度
    3. 交互复杂度:检验多轮对话能力

该基准采用两阶段构建流程,既确保任务多样性,又避免传统文档式评估方法的局限。

Image

开源可用性

团队通过以下渠道向研究社区全面开放VitaBench:

  • 含说明文档的官方项目主页
  • 包含全部代码的GitHub仓库
  • Hugging Face数据集托管
  • 追踪性能指标的公开排行榜

核心要点:

  • VitaBench从三个关键维度评估AI智能体
  • 现有系统在复杂任务中成功率不足30% 该框架专注于超越学术基准的现实世界适用性 项目现已实现全面开源供社区采用

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

美团推出AI家庭健康助手'小团健康管家',进军智能医疗领域

美团在乌镇健康大会上公布了其数字健康服务的最新进展。这家科技巨头推出了AI驱动的家庭健康管理平台'小团健康管家'及高端'健康卡'会员服务。这些产品将AI问诊与美团配送网络相结合,构建了一个完整的健康服务生态系统。用户现可通过美团APP获取从医疗咨询到处方配送的一站式服务。

April 15, 2026
数字健康AI医疗美团
美团大胆之举:通过精英实习计划招募下一代AI人才
News

美团大胆之举:通过精英实习计划招募下一代AI人才

中国科技巨头美团正通过其2026年LongCat实习计划掀起波澜,旨在吸引全球顶尖人工智能人才。该项目为硕士和博士研究生提供前沿大语言模型的实践机会、行业领袖的指导以及参与真实项目贡献的机会。美团的开源模型下载量已突破100万次,此举不仅使其站在AGI发展的前沿,同时也在培养未来的创新者。

April 10, 2026
人工智能科技实习AGI发展
News

美团押注AI以全新'长猫'模型重塑本地生活服务

美团正大力进军人工智能领域,旨在重塑本地生活服务。经过三年低调投入后,该公司全面推出了自主研发的长猫大模型及AI助手'小团'。CEO王兴将其描述为让AI成为业务核心的'进攻性'战略。此举伴随着具身智能领域的突破,或将彻底改变配送与服务机器人行业。

March 27, 2026
美团人工智能创新本地生活服务
News

美团AI浏览器初战不利,深陷抄袭风波

美团新推出的AI浏览器Tabbit因与开源项目高度相似而立即引发争议。尽管这家外卖巨头迅速应对设计质疑,但其能否在拥挤的AI浏览器市场立足仍存疑问。此次发布事故既凸显科技巨头在AI开发中的压力,也反映了用户注意力争夺战的新战场。

March 9, 2026
AI浏览器美团科技竞争
美团Tabbit浏览器开启公测,AI驱动自动化引领新潮流
News

美团Tabbit浏览器开启公测,AI驱动自动化引领新潮流

美团旗下光年之外公司正式推出Tabbit浏览器公测版,标志着AI集成网络浏览的重大飞跃。该浏览器融合多款AI模型,可自动完成表单填写、资料搜集等复杂任务。目前免费支持macOS和Windows系统,Tabbit将浏览器从被动工具转变为主动助手。

March 2, 2026
AI浏览器网页自动化美团
News

Tabbit AI浏览器进入测试阶段:您的新数字助手

美团光年之外团队推出了Tabbit,这是一款AI原生浏览器,彻底改变了我们与网络互动的方式。与传统浏览器不同,Tabbit更像是一位智能助手,能够自动完成表单填写和研究报告等任务。通过集成中国顶尖的AI模型以及垂直标签页和永久书签等创新功能,Tabbit有望彻底改变数字生产力。

March 2, 2026
AI浏览器数字生产力美团