跳转到主要内容

美团LongCat发布UNO-Bench:多模态AI评估新基准

美团LongCat团队推出突破性AI评估工具

2025年11月6日,北京 - 美团LongCat研究团队发布了UNO-Bench,这是一个革命性的基准测试工具,旨在系统评估多模态大语言模型(MLLMs)。这一新工具代表了在评估AI系统跨模态理解和处理信息能力方面的重大进展。

全面评估框架

该基准涵盖44种不同任务类型五种模态组合,为研究人员提供了前所未有的工具来测量模型在单模态和全模态场景下的表现。开发团队表示,UNO-Bench的创建是为了满足随着多模态AI系统日益复杂化而对标准化评估指标日益增长的需求。

Image

强大的数据集设计

UNO-Bench的核心是其精心策划的数据集:

  • 1250个全模态样本,具有98%的跨模态可解性
  • 2480个增强的单模态样本,针对实际应用进行了优化
  • 特别强调中文语境下的表现
  • 自动压缩处理使得运行速度提升90%

该数据集在针对18个公共基准测试时保持了令人印象深刻的98%一致性率,证明了其在研究用途上的可靠性。

创新评估方法

UNO-Bench引入了多项突破性功能:

  • 多步开放式问题格式用于评估复杂推理能力
  • 通用评分模型能够自动评估六种不同问题类型
  • 在自动评估中达到95%准确率

Image

未来发展计划

虽然目前主要关注中文应用场景,但LongCat团队正在积极寻求国际合作伙伴以开发:

  • 英文版本
  • 多语言适配版本

完整的UNO-Bench数据集现已可通过Hugging Face平台下载,相关代码和文档可在GitHub上获取。

关键点:

  1. UNO-Bench通过44种任务和5种模态组合评估多模态AI
  2. 包含具有98%跨模态可解性的精选数据集
  3. 引入创新的多步问题格式
  4. 目前专注于中文版本,计划开发英文/多语言版本
  5. 现已在Hugging Face和GitHub上提供

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

AI测试偏离目标:忽视了大多数现实世界的工作

一项新研究揭示,AI测试过于狭隘地聚焦于编程任务,忽略了92%的就业市场。研究人员发现当前的基准测试忽视了管理和法律等关键领域,同时过度强调了在大多数工作场所中无关紧要的技能。这些发现表明,AI发展可能正走上错误道路——优先考虑易于评分的技术任务而非现实世界的适用性。

March 9, 2026
AI评估工作自动化技术政策
阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力
News

阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力

阿里巴巴通义千问团队发布了一系列轻量级AI模型,这些小巧的模型蕴含着令人印象深刻的能力。新模型参数规模从0.8B到9B不等,具备多模态处理能力,同时针对智能手机和物联网设备等边缘设备进行了优化。最小型号提供闪电般的响应速度,而较大型号在能力上可与更庞大的系统媲美——且资源消耗更低。这些现已登陆主流平台的模型,或将彻底改变我们在日常设备中部署AI的方式。

March 3, 2026
边缘AI阿里巴巴通义千问轻量级模型
谷歌Flow迎来重大升级:集成Nano Banana模型与Veo
News

谷歌Flow迎来重大升级:集成Nano Banana模型与Veo

谷歌宣布对其AI创意工作室Flow进行重大更新,将实验性项目Whisk和ImageFX整合为统一平台。亮点是全新的Nano Banana图像模型,可与Veo视频工作流无缝衔接。凭借增强的编辑工具和媒体管理功能,谷歌旨在简化创意生产流程,同时强化对OpenAI等竞争对手的竞争优势。

February 26, 2026
AI创造力谷歌更新多模态AI
Kling AI 3.0震撼发布:触手可及的电影级魔法
News

Kling AI 3.0震撼发布:触手可及的电影级魔法

Kling AI最新3.0版本通过智能分镜和长达15秒的片段扩展彻底改变视频创作。本次更新引入电影级光照技术,呈现惊艳的4K画质,并简化多图像风格融合功能。目前黑金会员可优先体验,这些工具将助力大众轻松实现专业级叙事效果。

February 5, 2026
AI视频生成创意工具数字叙事
News

腾讯AI布局再添强援:顶尖科学家田雨鹏加入混元团队

腾讯在人工智能人才争夺战中再下一城,聘请田雨鹏担任混元多模态团队首席研究科学家。这位清华大学博士、前Sea AI Lab研究员将专注于提升腾讯旗舰AI模型的强化学习能力。此举彰显了腾讯持续领跑多模态AI前沿研发的决心。

February 3, 2026
腾讯人工智能研究强化学习
News

百度文心ERNIE 5.0以大规模AI升级开创先河

百度发布了其迄今最先进的AI模型ERNIE 5.0,拥有惊人的2.4万亿参数。这款多模态强大模型可同时处理文本、图像、音频和视频,在40多项基准测试中超越竞争对手。通过汇集数百位跨领域专家的智慧,ERNIE 5.0将为个人用户和企业提供更智能的响应和更快的处理能力。

January 22, 2026
人工智能百度多模态AI