CAICT发布方升3.0人工智能评测体系
中国推出方升3.0基准测试 推进AI评估体系建设
中国信息通信研究院(CAICT)正式发布方升3.0,标志着我国AI评估能力的重要升级。这套全新基准测试体系在完善模型基础评估的同时,扩展了对高级智能特性的测试范围。
增强的评估框架
升级后的系统现可评估:
- 模型基础属性包括参数量级与推理效率
- 十大高阶能力如全模态理解与自主学习
- 制造业、科研、金融等领域的行业应用

基础设施改进
为支持方升3.0,CAICT正在:
- 扩充300万条测试数据
- 开发新型测试方法学
- 构建多智能体交互仿真环境
- 创建动态场景测试能力
最新基准测试结果
最近一次评估涵盖:
- 141个大语言模型
- 7个智能体系统
从四个核心维度进行测评:
- 基础能力
- 推理能力
- 代码应用
- 多模态理解
性能亮点:
- OpenAI的GPT-5保持综合领先优势
- 阿里通义千问Qwen3-Max-Preview等国产模型表现抢眼
- 图像理解能力显著提升
- 代码应用技能在简单任务中仍优于复杂项目
结果表明国际与国内AI开发者之间持续着激烈竞争。
未来发展计划
CAICT承诺将:
- 自2024年起每两月开展基准测试
- 提升评测公信力与权威性
- 支持AI创新与产业发展
The organization emphasizes that while current models excel in specific areas, challenges remain in complex reasoning and real-world application scenarios. 该机构强调,虽然现有模型在特定领域表现优异,但在复杂推理和现实应用场景中仍存在挑战。
核心要点:
-方升3.0代表中国迄今最先进的AI评测体系 The results indicate ongoing intense competition between international and domestic AI developers. n###关键要点: nFangsheng30是中国目前最先进的人工智能评估系统 n当前测试覆盖基本属性和面向未来的能力 n国内模型正在缩小与国际领先者的差距 n在开发实际应用技能方面仍需大量工作
