跳转到主要内容

Claude Opus4.5打破AI耐力记录

Claude Opus4.5突破AI耐力边界

Image

人工智能正在进入未知领域——不仅在原始智能方面,更在于持久力。Anthropic的Claude Opus4.5在最近的基准测试中展现了惊人的耐力,在处理复杂任务时能持续4小时49分钟并保持50%的成功率。

由研究小组METR进行的测试揭示了AI性能随时间下降的有趣模式。对于只需80%成功率的简单任务,Opus4.5仅需27分钟即可完成。但当挑战变得更艰巨、更耗时,这个模型才真正展现出它的实力。

测试极限

数据讲述了一个令人印象深刻的故事:

  • 27分钟完成标准任务(80%成功率阈值)
  • 近5小时应对复杂挑战(50%成功率阈值)
  • 理论最长连续运行时间达20+小时(存在限制条件)

"我们看到AI正从快速响应者进化为潜在的长期合作伙伴,"一位熟悉测试的研究人员解释道,"这可能重新定义我们如何将这些系统用于长期项目。"

遗留问题

尽管结果令人鼓舞,一些专家仍持谨慎态度:

  • 研究仅包含14个测试样本
  • 存在模型"博弈"基准测试的可能性
  • 实际应用可能与实验室条件不同

METR团队承认这些局限性,但仍坚持他们的发现代表了朝着具备持续推理能力的人工通用智能迈出的重要一步。

未来意义

这一突破暗示了新的可能性:

  • 与AI结对编程进行长时间编码会话
  • 持续监控和分析系统
  • 长期研究辅助项目

前路仍不明朗,但Claude Opus4.5的耐力壮举为人们提供了关于AI不断进化能力的激动人心的一瞥。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

韩国AI雄心遇挫:中国代码争议引发风波

韩国推动AI自主化的努力因本土模型与中国开源代码惊人相似而面临审视。Naver和SK Telecom等科技巨头陷入技术主权与实际发展现实的辩论。尽管企业辩称其做法符合行业惯例,这一发现仍引发了关于何为真正'国产'AI创新的讨论。

January 14, 2026
人工智能科技政策韩国科技
News

Instagram联合创始人转战Anthropic创新实验室

Instagram联合创始人、Anthropic首席产品官Mike Krieger将转任公司内部专注于实验性AI产品的'Labs'团队负责人。随着Anthropic计划在六个月内将创新团队规模扩大一倍,Krieger视此为亲手塑造AI应用的关键时刻。与此同时,Ami Vora将接替Krieger的产品领导职责,这家初创公司正加紧与科技巨头的竞争。

January 14, 2026
人工智能科技初创企业高管变动
News

韩国获得NVIDIA尖端AI芯片优先采购权

在2026年国际消费电子展上,韩国官员宣布NVIDIA承诺优先向该国交付下一代Vera Rubin GPU。这一战略举措是一项更广泛合作计划的一部分,该计划包括为韩国AI基础设施建设提供多达26万块GPU。官员强调,提前获得先进芯片技术可能使韩国科技企业在全球AI竞争中取得关键优势。

January 13, 2026
NVIDIA人工智能科技合作
DeepSeek-V4将于今年二月彻底革新代码生成领域
News

DeepSeek-V4将于今年二月彻底革新代码生成领域

DeepSeek正筹备在农历新年期间推出其强大的新型AI模型DeepSeek-V4。此次更新将在代码生成和处理复杂编程任务方面实现重大突破,有望超越Claude和GPT系列等竞争对手。开发者可以期待这款创新工具提供更有条理的响应和更强的推理能力。

January 12, 2026
AI发展编程工具机器学习
News

多模态AI引发股市热潮,投资者押注技术革命

中国A股市场多模态AI概念股集体飙升,投资者对融合文本、图像和视频理解的技术突破作出反应。焦点科技、一点天下等公司触及涨停板,市场对AI从客服到内容创作等行业的变革潜力充满期待。分析师认为这不仅是一时热情,更反映了人们对AI重塑技术交互方式的真实信心。

January 12, 2026
人工智能股票市场科技趋势
News

清华与Uber支持的AI平台获得重大资金注入

由清华大学与Uber合作开发的研究平台Manifold AI已完成超1亿元人民币的Pre-A轮融资。该平台专注于通过数据管理和自动化预处理工具简化机器学习研究流程。梅花创投和华为哈勃等知名投资方的加入,彰显了业界对中国日益增长的AI实力的强烈信心。

January 12, 2026
人工智能研究技术风险投资