跳转到主要内容

Claude Opus4.5打破AI耐力记录

Claude Opus4.5突破AI耐力边界

Image

人工智能正在进入未知领域——不仅在原始智能方面,更在于持久力。Anthropic的Claude Opus4.5在最近的基准测试中展现了惊人的耐力,在处理复杂任务时能持续4小时49分钟并保持50%的成功率。

由研究小组METR进行的测试揭示了AI性能随时间下降的有趣模式。对于只需80%成功率的简单任务,Opus4.5仅需27分钟即可完成。但当挑战变得更艰巨、更耗时,这个模型才真正展现出它的实力。

测试极限

数据讲述了一个令人印象深刻的故事:

  • 27分钟完成标准任务(80%成功率阈值)
  • 近5小时应对复杂挑战(50%成功率阈值)
  • 理论最长连续运行时间达20+小时(存在限制条件)

"我们看到AI正从快速响应者进化为潜在的长期合作伙伴,"一位熟悉测试的研究人员解释道,"这可能重新定义我们如何将这些系统用于长期项目。"

遗留问题

尽管结果令人鼓舞,一些专家仍持谨慎态度:

  • 研究仅包含14个测试样本
  • 存在模型"博弈"基准测试的可能性
  • 实际应用可能与实验室条件不同

METR团队承认这些局限性,但仍坚持他们的发现代表了朝着具备持续推理能力的人工通用智能迈出的重要一步。

未来意义

这一突破暗示了新的可能性:

  • 与AI结对编程进行长时间编码会话
  • 持续监控和分析系统
  • 长期研究辅助项目

前路仍不明朗,但Claude Opus4.5的耐力壮举为人们提供了关于AI不断进化能力的激动人心的一瞥。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

高德的ABot-M0为机器人赋予通用大脑
News

高德的ABot-M0为机器人赋予通用大脑

在机器人技术的重大飞跃中,高德开源了全球首个机器人智能统一架构ABot-M0。这款'通用大脑'在关键基准测试中比先前模型性能提升30%,其完整的开源套件——包括算法和训练数据——可能彻底改变我们为家庭和工业开发智能机器人的方式。

April 1, 2026
机器人技术人工智能开源
蚂蚁集团推出新型AI防护盾,保护开源智能体免受数字威胁
News

蚂蚁集团推出新型AI防护盾,保护开源智能体免受数字威胁

蚂蚁集团与清华大学联合发布了ClawAegis,这是一款针对OpenClaw AI智能体的突破性安全插件。这一轻量级解决方案可应对从数据投毒到未经授权访问等各种威胁,提供实时保护且不影响运行速度。该开源工具标志着构建更安全的自主AI系统迈出了重要一步。

April 2, 2026
AI安全OpenClaw网络安全
News

联想全力押注AI:百亿美元营收增长与大胆新方向

联想集团董事长杨元庆制定了雄心勃勃的1000亿美元营收目标,同时公司正全力向AI转型。目前AI业务已占联想销售额的三分之一,该公司正在重塑自身为'原生AI'企业,同时应对利润率压力和移动业务挑战。这家科技巨头正大力押注如Kubit个人计算中心等创新设备来推动未来增长。

April 2, 2026
联想人工智能科技行业
字节跳动通过新校园招聘计划为未来AI人才播下种子
News

字节跳动通过新校园招聘计划为未来AI人才播下种子

字节跳动启动了名为Seed2027的雄心勃勃校园招聘计划,旨在培养下一代AI人才。该计划面向2027届毕业生,重点关注大语言模型和尖端AI研究。入选者将直接与资深科学家共事,并获得强大计算资源支持。这场早期人才争夺战彰显了字节跳动在日益激烈的AI竞赛中保持领先的决心。

April 1, 2026
AI招聘字节跳动机器学习
ClawHub中国镜像站点正式上线——AI开发者欢呼雀跃!
News

ClawHub中国镜像站点正式上线——AI开发者欢呼雀跃!

广受欢迎的'AI Agent版npm'平台ClawHub正式推出中国镜像站点,为国内开发者提供更快速的访问和更稳定的服务。新镜像站点https://mirror-cn.clawhub.com解决了此前网络延迟问题,使分享和发现AI技能变得前所未有的便捷。该项目由字节跳动火山引擎赞助,标志着AI Agent生态系统本土化进程的加速。

April 1, 2026
AI开发开源机器学习
News

联想转向AI:千亿美元押注人工智能

联想正从硬件巨头向AI领军企业进行重大转型。在年度大会上,CEO杨元庆宣布公司将重组为'AI原生'企业,目标两年内实现1000亿美元营收。该战略聚焦于结合边缘与云计算能力的混合AI解决方案,首批实体产品预计今年上市。这一大胆举措或将重塑这家39年历史科技企业的未来格局。

April 1, 2026
人工智能企业战略科技行业