跳转到主要内容

CAICT发布方升3.0人工智能评测体系

中国推出方升3.0基准测试 推进AI评估体系建设

中国信息通信研究院(CAICT)正式发布方升3.0,标志着我国AI评估能力的重要升级。这套全新基准测试体系在完善模型基础评估的同时,扩展了对高级智能特性的测试范围。

增强的评估框架

升级后的系统现可评估:

  • 模型基础属性包括参数量级与推理效率
  • 十大高阶能力如全模态理解与自主学习
  • 制造业、科研、金融等领域的行业应用

Image

基础设施改进

为支持方升3.0,CAICT正在:

  1. 扩充300万条测试数据
  2. 开发新型测试方法学
  3. 构建多智能体交互仿真环境
  4. 创建动态场景测试能力

最新基准测试结果

最近一次评估涵盖:

  • 141个大语言模型
  • 7个智能体系统 从四个核心维度进行测评:
    1. 基础能力
    2. 推理能力
    3. 代码应用
    4. 多模态理解

性能亮点:

  • OpenAI的GPT-5保持综合领先优势
  • 阿里通义千问Qwen3-Max-Preview等国产模型表现抢眼
  • 图像理解能力显著提升
  • 代码应用技能在简单任务中仍优于复杂项目

结果表明国际与国内AI开发者之间持续着激烈竞争。

未来发展计划

CAICT承诺将:

  • 自2024年起每两月开展基准测试
  • 提升评测公信力与权威性
  • 支持AI创新与产业发展

The organization emphasizes that while current models excel in specific areas, challenges remain in complex reasoning and real-world application scenarios. 该机构强调,虽然现有模型在特定领域表现优异,但在复杂推理和现实应用场景中仍存在挑战。

核心要点:

-方升3.0代表中国迄今最先进的AI评测体系 The results indicate ongoing intense competition between international and domestic AI developers. n###关键要点: nFangsheng30是中国目前最先进的人工智能评估系统 n当前测试覆盖基本属性和面向未来的能力 n国内模型正在缩小与国际领先者的差距 n在开发实际应用技能方面仍需大量工作

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

苹果的下一个大动作?一枚可能重新定义可穿戴设备的微型AI胸针

苹果似乎正在研发一款革命性的可穿戴设备——一枚与AirTag追踪器大小相当的AI驱动胸针。与作为手机配件的智能手表不同,这款低调的配件旨在成为独立的人工智能助手。消息人士透露,它将配备环境传感器和苹果标志性的极简设计,可能为我们日常生活中的科技交互提供新方式。

January 22, 2026
Apple可穿戴技术人工智能
News

OpenAI寻求从中东投资者处获得500亿美元资金支持

OpenAI首席执行官Sam Altman正在游说资金雄厚的中东投资者,包括阿布扎比主权财富基金,以大胆举措寻求高达500亿美元的新融资。这轮雄心勃勃的融资可能使这家AI先驱企业的估值达到近8300亿美元,尽管其尚未实现盈利。这笔资金将用于支持芯片开发和数据中心扩建等大型基础设施项目,随着与谷歌和Anthropic的竞争加剧。

January 22, 2026
AI融资OpenAI主权财富基金
News

DeepMind首席执行官称中国AI与西方差距仅剩6个月

在2026年达沃斯论坛上,DeepMind首席执行官Demis Hassabis透露中国AI技术目前仅落后西方同行六个月——较此前预估大幅缩小。尽管他盛赞DeepSeek R1等中国成果,但也指出该国在突破性创新方面仍有不足。讨论还涉及美国放宽芯片出口政策及谷歌对具身智能研究的投入。

January 21, 2026
人工智能DeepMind中国科技
马斯克与奥特曼在法庭对决前夕就AI安全问题激烈交锋
News

马斯克与奥特曼在法庭对决前夕就AI安全问题激烈交锋

科技巨头埃隆·马斯克与萨姆·奥特曼展开激烈公开辩论,互相指责对方AI产品的安全隐患。马斯克警告ChatGPT存在心理风险,而奥特曼则反击特斯拉自动驾驶系统的可靠性问题。这场争论正值OpenAI因转型营利模式面临马斯克的法律挑战。随着庭审临近,这场冲突凸显了AI行业日益紧张的局势。

January 21, 2026
人工智能科技行业法律纠纷
News

微软AI负责人预测五年内将出现个人数字伴侣

微软AI首席执行官穆斯塔法·苏莱曼预见了一个不远的未来:AI将从单纯的工具演变为亲密的个人伴侣。这些数字伙伴将深刻理解用户的生活,提供全天候的支持与陪伴。微软的Copilot已通过先进的个性化功能朝着这一愿景迈进。

January 21, 2026
人工智能微软未来科技
News

Kimi新一代AI模型蓄势待发,或将挑战GPT-5

Moonshot AI旗下Kimi即将发布升级版万亿参数模型,有望在基准测试中超越GPT-5。目前正在招募企业测试人员,此次迭代基于以高性价比和卓越性能著称的K2系列。凭借48亿美元估值和雄厚资金支持,Kimi旨在突破文本处理和多模态能力的边界。

January 21, 2026
人工智能Moonshot AI大语言模型