美团推出VitaBench：AI智能体评估新标准欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

美团推出VitaBench：AI智能体评估新标准

美团龙猫团队推出VitaBench：AI智能体评估新标准

美团龙猫研究团队正式发布VitaBench综合基准测试框架，专门用于评估智能体在现实生活多交互任务中的表现。该框架重点针对外卖送餐、餐厅就餐、旅行规划等高频率应用场景。

解决现实世界AI挑战

当前AI系统在复杂场景中表现出明显局限性。据龙猫团队研究显示，即使是领先的推理模型在跨场景任务中的成功率也低于30%。VitaBench旨在弥合实验室表现与实际应用需求之间的差距。

全方位评估框架

VitaBench核心特性包括：

66种交互工具模拟真实世界服务
购票、餐厅预订等复杂任务模拟
三维度评估标准：
1. 推理复杂度：衡量信息整合需求与观察空间大小
2. 工具复杂度：评估依赖关系与调用链长度
3. 交互复杂度：检验多轮对话能力

该基准采用两阶段构建流程，既确保任务多样性，又避免传统文档式评估方法的局限。

开源可用性

团队通过以下渠道向研究社区全面开放VitaBench：

含说明文档的官方项目主页
包含全部代码的GitHub仓库
Hugging Face数据集托管
追踪性能指标的公开排行榜

核心要点：

VitaBench从三个关键维度评估AI智能体
现有系统在复杂任务中成功率不足30% 该框架专注于超越学术基准的现实世界适用性 项目现已实现全面开源供社区采用

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

美团推出AI家庭健康助手'小团健康管家'，进军智能医疗领域

美团在乌镇健康大会上公布了其数字健康服务的最新进展。这家科技巨头推出了AI驱动的家庭健康管理平台'小团健康管家'及高端'健康卡'会员服务。这些产品将AI问诊与美团配送网络相结合，构建了一个完整的健康服务生态系统。用户现可通过美团APP获取从医疗咨询到处方配送的一站式服务。

April 15, 2026

数字健康AI医疗美团

News

美团大胆之举：通过精英实习计划招募下一代AI人才

中国科技巨头美团正通过其2026年LongCat实习计划掀起波澜，旨在吸引全球顶尖人工智能人才。该项目为硕士和博士研究生提供前沿大语言模型的实践机会、行业领袖的指导以及参与真实项目贡献的机会。美团的开源模型下载量已突破100万次，此举不仅使其站在AGI发展的前沿，同时也在培养未来的创新者。

April 10, 2026

人工智能科技实习AGI发展

News

美团押注AI以全新'长猫'模型重塑本地生活服务

美团正大力进军人工智能领域，旨在重塑本地生活服务。经过三年低调投入后，该公司全面推出了自主研发的长猫大模型及AI助手'小团'。CEO王兴将其描述为让AI成为业务核心的'进攻性'战略。此举伴随着具身智能领域的突破，或将彻底改变配送与服务机器人行业。

March 27, 2026

美团人工智能创新本地生活服务

News

美团AI浏览器初战不利，深陷抄袭风波

美团新推出的AI浏览器Tabbit因与开源项目高度相似而立即引发争议。尽管这家外卖巨头迅速应对设计质疑，但其能否在拥挤的AI浏览器市场立足仍存疑问。此次发布事故既凸显科技巨头在AI开发中的压力，也反映了用户注意力争夺战的新战场。

March 9, 2026

AI浏览器美团科技竞争

News

美团Tabbit浏览器开启公测，AI驱动自动化引领新潮流

美团旗下光年之外公司正式推出Tabbit浏览器公测版，标志着AI集成网络浏览的重大飞跃。该浏览器融合多款AI模型，可自动完成表单填写、资料搜集等复杂任务。目前免费支持macOS和Windows系统，Tabbit将浏览器从被动工具转变为主动助手。

March 2, 2026

AI浏览器网页自动化美团

News

Tabbit AI浏览器进入测试阶段：您的新数字助手

美团光年之外团队推出了Tabbit，这是一款AI原生浏览器，彻底改变了我们与网络互动的方式。与传统浏览器不同，Tabbit更像是一位智能助手，能够自动完成表单填写和研究报告等任务。通过集成中国顶尖的AI模型以及垂直标签页和永久书签等创新功能，Tabbit有望彻底改变数字生产力。

March 2, 2026

AI浏览器数字生产力美团

美团推出VitaBench：AI智能体评估新标准

美团龙猫团队推出VitaBench：AI智能体评估新标准

解决现实世界AI挑战

全方位评估框架

开源可用性

核心要点：

喜欢这篇文章？

相关文章

美团推出AI家庭健康助手'小团健康管家'，进军智能医疗领域

美团大胆之举：通过精英实习计划招募下一代AI人才

美团押注AI以全新'长猫'模型重塑本地生活服务

美团AI浏览器初战不利，深陷抄袭风波

美团Tabbit浏览器开启公测，AI驱动自动化引领新潮流

Tabbit AI浏览器进入测试阶段：您的新数字助手

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

微信对人工智能名人冒充行为采取行动

Composio.dev：AI集成平台

韩国Zeta AI聊天机器人用户参与度超越ChatGPT

商汤科技新AI模型在空间智能领域超越GPT-5

主要页面

内容分类

其他