跳转到主要内容

美团LongCat发布UNO-Bench:多模态AI评估新基准

美团LongCat团队推出突破性AI评估工具

2025年11月6日,北京 - 美团LongCat研究团队发布了UNO-Bench,这是一个革命性的基准测试工具,旨在系统评估多模态大语言模型(MLLMs)。这一新工具代表了在评估AI系统跨模态理解和处理信息能力方面的重大进展。

全面评估框架

该基准涵盖44种不同任务类型五种模态组合,为研究人员提供了前所未有的工具来测量模型在单模态和全模态场景下的表现。开发团队表示,UNO-Bench的创建是为了满足随着多模态AI系统日益复杂化而对标准化评估指标日益增长的需求。

Image

强大的数据集设计

UNO-Bench的核心是其精心策划的数据集:

  • 1250个全模态样本,具有98%的跨模态可解性
  • 2480个增强的单模态样本,针对实际应用进行了优化
  • 特别强调中文语境下的表现
  • 自动压缩处理使得运行速度提升90%

该数据集在针对18个公共基准测试时保持了令人印象深刻的98%一致性率,证明了其在研究用途上的可靠性。

创新评估方法

UNO-Bench引入了多项突破性功能:

  • 多步开放式问题格式用于评估复杂推理能力
  • 通用评分模型能够自动评估六种不同问题类型
  • 在自动评估中达到95%准确率

Image

未来发展计划

虽然目前主要关注中文应用场景,但LongCat团队正在积极寻求国际合作伙伴以开发:

  • 英文版本
  • 多语言适配版本

完整的UNO-Bench数据集现已可通过Hugging Face平台下载,相关代码和文档可在GitHub上获取。

关键点:

  1. UNO-Bench通过44种任务和5种模态组合评估多模态AI
  2. 包含具有98%跨模态可解性的精选数据集
  3. 引入创新的多步问题格式
  4. 目前专注于中文版本,计划开发英文/多语言版本
  5. 现已在Hugging Face和GitHub上提供

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包,将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力,帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能,制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026
Alibaba CloudAI硬件智能设备
Gemini领跑全球AI视觉竞赛,中国模型崭露头角
News

Gemini领跑全球AI视觉竞赛,中国模型崭露头角

谷歌Gemini-3-pro以83.64分的惊人成绩主导最新多模态视觉基准测试,而中国参赛者商汤科技和字节跳动展现出显著进步。此次评估揭示了AI视觉理解能力的格局变化,亮点包括Qwen3-vl成为首个突破70分开源模型,以及GPT-5.2意外落后的表现。

December 31, 2025
AI基准测试计算机视觉多模态AI
Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起
News

Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起

谷歌Gemini-3-Pro以83.64分的优异成绩主导最新多模态AI排行榜,而字节跳动和商汤的中国模型展现出强劲进步。此次评估揭示了科技巨头间的意外差距,OpenAI的GPT-5.2意外落后。值得注意的是,阿里巴巴的Qwen3-VL成为首个突破70分开源模型。

December 31, 2025
AI排行榜多模态AI计算机视觉
蚂蚁集团灵光AI现可即时构建应用程序
News

蚂蚁集团灵光AI现可即时构建应用程序

蚂蚁集团推出了基于浏览器的灵光AI助手版本,将强大的生产力工具带到用户指尖。其突出功能是什么?仅用30秒的自然语言指令即可创建功能性小程序。凭借无缝的移动同步能力和涵盖3D模型到音频处理的多模态功能,灵光旨在彻底改变我们的工作和学习方式。

December 9, 2025
AI助手无代码开发生产力工具
Kling AI全新角色库为AI生成视频带来一致性
News

Kling AI全新角色库为AI生成视频带来一致性

快手的Kling AI推出了突破性的'角色库'功能,赋予其O1多模态视频模型长期记忆能力。该系统允许用户上传单张角色图像,即可自动生成多角度、多光照条件下的统一形象。凭借宣称96%的一致性率,这项创新有望为电影制作人、电商企业和虚拟内容创作者彻底改变视频创作方式。

December 8, 2025
AI视频生成角色一致性多模态AI
Gemini3 Pro以创纪录信任评分赢得用户青睐
News

Gemini3 Pro以创纪录信任评分赢得用户青睐

谷歌最新AI模型Gemini3 Pro在用户信任度方面取得重大突破,在独立测试中获得69%认可率——较前代16%的成绩实现惊人飞跃。这项由Prolific开展的研究邀请26,000名参与者对AI模型进行盲测,重点关注适应性、沟通能力等现实指标。虽然Gemini3在多数类别领先,但DeepSeek V3在对话风格上略胜一筹。研究人员强调人类评估与技术基准测试并重的重要性。

December 4, 2025
Gemini3AI评估用户信任