美团LongCat发布UNO-Bench：多模态AI评估新基准欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

美团LongCat发布UNO-Bench：多模态AI评估新基准

美团LongCat团队推出突破性AI评估工具

2025年11月6日，北京 - 美团LongCat研究团队发布了UNO-Bench，这是一个革命性的基准测试工具，旨在系统评估多模态大语言模型（MLLMs）。这一新工具代表了在评估AI系统跨模态理解和处理信息能力方面的重大进展。

全面评估框架

该基准涵盖44种不同任务类型和五种模态组合，为研究人员提供了前所未有的工具来测量模型在单模态和全模态场景下的表现。开发团队表示，UNO-Bench的创建是为了满足随着多模态AI系统日益复杂化而对标准化评估指标日益增长的需求。

强大的数据集设计

UNO-Bench的核心是其精心策划的数据集：

1250个全模态样本，具有98%的跨模态可解性
2480个增强的单模态样本，针对实际应用进行了优化
特别强调中文语境下的表现
自动压缩处理使得运行速度提升90%

该数据集在针对18个公共基准测试时保持了令人印象深刻的98%一致性率，证明了其在研究用途上的可靠性。

创新评估方法

UNO-Bench引入了多项突破性功能：

多步开放式问题格式用于评估复杂推理能力
通用评分模型能够自动评估六种不同问题类型
在自动评估中达到95%准确率

未来发展计划

虽然目前主要关注中文应用场景，但LongCat团队正在积极寻求国际合作伙伴以开发：

英文版本
多语言适配版本

完整的UNO-Bench数据集现已可通过Hugging Face平台下载，相关代码和文档可在GitHub上获取。

关键点：

UNO-Bench通过44种任务和5种模态组合评估多模态AI
包含具有98%跨模态可解性的精选数据集
引入创新的多步问题格式
目前专注于中文版本，计划开发英文/多语言版本
现已在Hugging Face和GitHub上提供

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

AI测试偏离目标：忽视了大多数现实世界的工作

一项新研究揭示，AI测试过于狭隘地聚焦于编程任务，忽略了92%的就业市场。研究人员发现当前的基准测试忽视了管理和法律等关键领域，同时过度强调了在大多数工作场所中无关紧要的技能。这些发现表明，AI发展可能正走上错误道路——优先考虑易于评分的技术任务而非现实世界的适用性。

March 9, 2026

AI评估工作自动化技术政策

News

阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力

阿里巴巴通义千问团队发布了一系列轻量级AI模型，这些小巧的模型蕴含着令人印象深刻的能力。新模型参数规模从0.8B到9B不等，具备多模态处理能力，同时针对智能手机和物联网设备等边缘设备进行了优化。最小型号提供闪电般的响应速度，而较大型号在能力上可与更庞大的系统媲美——且资源消耗更低。这些现已登陆主流平台的模型，或将彻底改变我们在日常设备中部署AI的方式。

March 3, 2026

边缘AI阿里巴巴通义千问轻量级模型