GPT-5.2在马拉松式编程挑战中超越Claude Opus
AI编程助手大比拼
Cursor最近的基准测试揭示了当今顶级AI编程助手之间的显著差异。当要求从零构建复杂系统时,OpenAI的GPT-5.2展现出竞争对手难以企及的持久耐力。

开发团队设计了一项雄心勃勃的压力测试:完全通过AI自动化构建一个完整的网页浏览器。这不仅仅是表面层面的编码——挑战还包括基础组件如HTML解析器、CSS布局引擎,甚至自定义的JavaScript虚拟机。
"我们想观察这些模型在需要持续数周专注力的项目上的表现,"Cursor发言人解释道,"解决离散问题是一回事,但在数百万行代码中保持上下文又是另一回事。"
马拉松式与冲刺式表现对比
在整个延长开发周期中,GPT-5.2始终如一地提供连贯、准确的代码。与可能后劲不足的人类程序员不同,AI保持了稳定的进展速度且没有牺牲质量或偷工减料。
Claude Opus4.5开局强劲但难以维持长期一致性。虽然擅长解决单个问题,但偶尔会忽视整体目标或过早完成复杂子系统。
差异在以下方面尤为明显:
- 维持跨越数月开发的架构愿景
- 处理组件间错综复杂的依赖关系
- 抵制简化挑战性需求的诱惑
最终基于Rust的浏览器内核取得了令人印象深刻的成果,包括使渲染管道性能提升25倍的优化措施。
超越浏览器开发领域
此后Cursor将GPT-5.2部署于其他雄心勃勃的项目:
- 功能完整的Windows7模拟器
- 超过百万行代码的遗留系统迁移
- 复杂视觉效果(平滑缩放、动态模糊)的自动化实现
其影响远不止于编程辅助工具范畴。这些结果表明AI可能很快就能独立承担完整的软件项目——这类工作目前仍需协调人类团队完成。
关键要点:
- 耐力至关重要:在长时间编码任务中GPT-5.2展现出比Claude Opus4.5更优异的专注力
- 现实验证:浏览器项目证明AI能处理多组件的工程挑战
- 性能提升:自动化优化使关键子系统获得25倍改进
- 能力扩展:Windows模拟器的成功完成展示了应用的广度


