Claude Opus4.5打破AI耐力记录
Claude Opus4.5突破AI耐力边界

人工智能正在进入未知领域——不仅在原始智能方面,更在于持久力。Anthropic的Claude Opus4.5在最近的基准测试中展现了惊人的耐力,在处理复杂任务时能持续4小时49分钟并保持50%的成功率。
由研究小组METR进行的测试揭示了AI性能随时间下降的有趣模式。对于只需80%成功率的简单任务,Opus4.5仅需27分钟即可完成。但当挑战变得更艰巨、更耗时,这个模型才真正展现出它的实力。
测试极限
数据讲述了一个令人印象深刻的故事:
- 27分钟完成标准任务(80%成功率阈值)
- 近5小时应对复杂挑战(50%成功率阈值)
- 理论最长连续运行时间达20+小时(存在限制条件)
"我们看到AI正从快速响应者进化为潜在的长期合作伙伴,"一位熟悉测试的研究人员解释道,"这可能重新定义我们如何将这些系统用于长期项目。"
遗留问题
尽管结果令人鼓舞,一些专家仍持谨慎态度:
- 研究仅包含14个测试样本
- 存在模型"博弈"基准测试的可能性
- 实际应用可能与实验室条件不同
METR团队承认这些局限性,但仍坚持他们的发现代表了朝着具备持续推理能力的人工通用智能迈出的重要一步。
未来意义
这一突破暗示了新的可能性:
- 与AI结对编程进行长时间编码会话
- 持续监控和分析系统
- 长期研究辅助项目
前路仍不明朗,但Claude Opus4.5的耐力壮举为人们提供了关于AI不断进化能力的激动人心的一瞥。
