跳转到主要内容

Anthropic发布Claude Opus 4.1,增强AI能力

Anthropic发布Claude Opus 4.1,增强AI能力

Anthropic正式推出Claude Opus 4.1,这是其旗舰AI模型的最新版本,在Agent任务、实际编码和推理能力方面实现重大进步。作为Claude Opus 4的直接升级版,新版本现已通过API、Amazon Bedrock和Google Cloud的Vertex AI向付费用户开放。

Image

性能基准测试

Claude Opus 4.1在SWE-bench Verified软件工程基准测试中获得了74.5%的分数,较上一版本的72.5%有所提升。该模型在多文件代码重构、精确调试和复杂任务执行方面表现出色。根据GitHub的数据,它在大多数能力上优于前代版本,尤其是在高效处理大型代码库方面。

乐天集团报告称,该模型能准确识别大型代码库中的错误,最大限度地减少不必要的调整并降低bug引入率——从而提升日常调试效率。

Image

Agent任务与推理升级

该模型在TAU-bench和GPQA Diamond等基准测试中展现出更强的多步推理能力和细节追踪能力,使其非常适合长期自主操作。Anthropic强调其分析复杂数据源(如专利数据库、学术论文和市场报告)的能力,可为决策提供战略洞察。

Claude Opus 4.1还支持高达64K tokens的上下文窗口扩展推理功能,从而更准确地处理冗长信息。

开发者的无缝升级体验

升级至Claude Opus 4.1设计简洁:开发者只需将模型字符串从claude-opus-4-20250514更新为claude-opus-4-1-20250805,无需更改API配置。定价保持不变:输入token为每百万15美元,输出token为每百万75美元;同时新增了节省成本的功能如提示缓存(最高可节省90%)和批量处理优化(成本降低50%)。

安全性与稳定性承诺

Anthropic强调Claude Opus 4.1的安全性:无害响应率达到98.76%(此前为97.27%),拒绝率低至0.08%。严格测试确保该模型在生物风险和网络能力等领域始终低于高风险阈值。

行业竞争与未来计划

此次发布正值AI开发竞争加剧之际。Anthropic首席产品官Mike Krieger指出行业正从重大升级转向渐进式改进。公司还透露将在未来几周推出“更大规模的模型改进”。

此次发布巩固了Anthropic相对于OpenAI等竞争对手的地位——后者据传正在开发GPT-5。

关键点总结

  • 编码性能增强: SWE-bench Verified得分74.5%。
  • 推理能力提升: 擅长多步任务和长上下文分析。
  • 经济高效: 保持原价同时通过缓存和批量处理节省成本。
  • 注重安全: 无害响应率98.76%,拒绝率仅0.08%。
  • 无缝集成: 为开发者提供简易升级路径。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

微软MAI-Image-2跻身全球AI图像生成三强
News

微软MAI-Image-2跻身全球AI图像生成三强

微软发布全新强力MAI-Image-2模型,现位列全球文本转图像AI系统前三甲。这项突破性技术解决了AI生成图像中文字乱码的长期问题,同时提供惊艳的视觉质量。用户已可免费测试该模型,微软计划很快将其整合至生产力工具中。

March 20, 2026
AIMicrosoftimage-generation
Anthropic旗下Claude Code进军移动端:用手机掌控AI开发
News

Anthropic旗下Claude Code进军移动端:用手机掌控AI开发

Anthropic悄然推出了一项改变游戏规则的开发者功能——Claude Code Channels。现在您可以通过Telegram或Discord远程管理本地AI编程会话,随时随地接收更新并发送指令。该功能将Claude Code转变为真正的异步开发助手,让您离开办公桌时它仍能持续工作。早期使用者已将其比作与人类工程师协作的体验。

March 20, 2026
AI开发Anthropic远程编程
News

谷歌终止免费提供Gemini Pro高级AI模型访问

谷歌正收紧对其强大的Gemini Pro AI模型的访问,自3月25日起终止免费使用。此举源于开发者通过多账户和第三方集成滥用免费访问权限。免费用户现在将被限制使用轻量级的Gemini Flash模型,而Pro访问需要订阅付费计划,起价为每月19.99美元。这紧随OpenAI和Anthropic类似的限制措施,标志着AI公司正转向商业化模式。

March 20, 2026
GoogleAIGemini
Manus AI以20分钟应用创建功能让'我的电脑'焕发生机
News

Manus AI以20分钟应用创建功能让'我的电脑'焕发生机

Meta旗下AI平台Manus实现了从云端到桌面的革命性跨越。其全新'我的电脑'功能允许AI代理直接管理文件、自动化任务,甚至能在几分钟内构建应用程序——所有这些操作都在严格的人工监督下确保数据安全。这或将彻底改变我们与设备的交互方式,使AI从助手转变为真正的数字同事。

March 18, 2026
AI生产力工具Meta
NVIDIA推出NemoClaw:为OpenClaw生态系统带来一键式AI体验
News

NVIDIA推出NemoClaw:为OpenClaw生态系统带来一键式AI体验

NVIDIA发布了革命性工具包NemoClaw,极大简化了OpenClaw平台上AI代理的部署流程。用户现在仅需一条命令即可安装Nemotron等强大AI模型和OpenShell运行时环境。该解决方案通过隔离沙箱和混合模型策略解决了关键隐私问题,同时支持从消费级设备到企业超级计算机的全场景应用。NVIDIA首席执行官黄仁勋称其为当代的'AI操作系统'。

March 17, 2026
AINVIDIAOpenClaw
智谱的GLM-5-Turbo:永不言弃的AI助手
News

智谱的GLM-5-Turbo:永不言弃的AI助手

智谱AI发布了GLM-5-Turbo,这是一款强大的新模型,旨在处理复杂任务而不中途停滞。与可能在长时间处理过程中出现问题的标准AI工具不同,此次升级专注于四个关键改进:可靠的工具使用、分解复杂请求、理解时间敏感任务以及高效处理繁重工作负载。早期测试显示,在实际商业场景中它的表现优于竞争对手,多家大型科技公司已对其准确性和可靠性表示赞赏。

March 17, 2026
AIZhipu生产力