跳转到主要内容

Claude 5 震撼登场:像专家一样编写代码并破解科学谜题的人工智能

Anthropic发布新一代Claude AI模型

人工智能研究公司Anthropic推出了第五代Claude AI系统,引入了两款专业模型,突破了语言模型的能力边界。这次发布标志着通用型和专业型AI能力的一次重大飞跃。

Image

Claude Fable5:编程领域的强者

通用型Fable5模型在多项基准测试中表现卓越,其编程能力尤为突出:

  • 软件开发:在评估解决真实GitHub问题的SWE-Bench Pro测试中,Fable5得分80.3%,超越了前代Claude Opus4.8(69.2%)和GPT5.5(58.6%)。
  • 实际影响:支付处理商Stripe报告称,原本需要五个月开发工作的项目,使用Fable5几天内就完成了。该模型一天内迁移了5000万行Ruby代码库——这项工作原本需要一个团队两个多月才能完成。
  • 金融分析:像IMC这样的交易公司发现该模型几乎通过了他们所有的交易分析测试,而其视觉解析能力使其能够以惊人的准确度从复杂的科学图表中提取数据。

Claude Mythos5:科学领域的专家

Fable5专注于通用应用,而Mythos5则针对科学研究,限制更少。目前仅通过Project Glasswing向部分合作伙伴和美国政府提供,并已显示出突破性成果:

  • 药物发现:在盲测中,Mythos5自主设计了针对14个蛋白质靶点中9个的有效候选药物,将这一过程加速了十倍。
  • 科学假设:研究人员在80%的情况下更倾向于Mythos5提出的分子生物学理论,包括一种后来被证实的新型大肠杆菌蛋白机制。
  • 基因组研究:在没有人工干预的情况下连续工作一周,该模型分析了来自138个物种的单细胞数据,创建的机器学习模型性能超越了《Science》杂志上发表的一个模型——尽管其规模小了100倍。

平衡能力与责任

这些能力也带来了重要考量:

  • 成本:定价从每百万输入token 10美元和每百万输出token 50美元起——几乎是前代模型的两倍。
  • 安全措施:Fable5包含了一种新型分类器,将潜在危险的查询(约5%的请求)重定向到能力较弱的模型。经过1000小时的测试,未发现成功越狱的案例。
  • 数据保留:Anthropic现在将用户数据保留30天以监控新的攻击模式。

可用性

Fable5目前可通过Claude API和企业计划访问,并逐步向Claude.ai订阅用户开放。用户在6月22日之前可以免费试用,之后将应用使用额度。

关键要点

  • Fable5擅长编码,几天内完成数月的工作
  • Mythos5提出有效的科学假设并加速药物发现
  • 新模型的成本几乎是前代版本的两倍
  • 严格的安全措施防止滥用高级能力
  • 现已通过API提供,正在逐步扩大开放范围