研究2026年6月10日

Claude Fable 5 基准测试:SWE-Bench Pro 80.3%,领先全场 11 个百分点

Claude Fable 5 在 SWE-Bench Pro 上取得 80.3%,而 Opus 4.8 为 69.2%、GPT-5.5 为 58.6%、Gemini 3.1 Pro 为 54.2%,并在 Cognition FrontierCode 上取得最高分。

Claude Fable 5 不只是险胜对手——而是把它们甩开了一圈。在 6 月 9 日发布时公布的基准结果中,Anthropic 的新模型在 SWE-Bench Pro 上取得 80.3%,领先次优前沿模型约 11 个百分点

数据

衡量真实世界软件工程能力的 SWE-Bench Pro 对比如下:

模型SWE-Bench Pro
Claude Fable 580.3%
Claude Opus 4.869.2%
GPT-5.558.6%
Gemini 3.1 Pro54.2%

Fable 5 与 Anthropic 自家 Opus 4.8 之间的差距——超过 11 个百分点——大于 Opus 4.8 与谷歌 Gemini 3.1 Pro 之间的差距。Fable 5 还在 Cognition 的 FrontierCode 评测中取得前沿模型最高分,这是衡量前沿编码能力的另一个独立指标。

几乎处处领先

Anthropic 表示,Fable 5 在几乎所有受测能力基准上均达到业界领先水平,在长任务和复杂任务上优势最大。Andrej Karpathy 在评价这些结果时称此次发布是"一次配得上大版本升级的阶跃式进步",并将这些基准描述为"在所有项目上都以明显优势领先",指出该模型在"针对极难问题的长时间求解会话"中尤其强大。

除编码外,评测结果还延伸至其他模态:

  • 视觉: 在从科学图表中提取数字、根据截图重建网页应用方面达到业界领先水平。该模型仅凭视觉通关了 Pokémon FireRed。
  • 长上下文: 支持数百万 Token。借助基于文件的记忆机制,Fable 5 玩 Slay the Spire 的表现比 Opus 4.8 好 3 倍。

长任务领先为何重要

前沿模型迭代之间相差一两个百分点很常见;而在 SWE-Bench Pro 上跃升 11 个百分点则不然。结果中的规律——在最长、最难的任务上提升最大——表明这一进步恰好集中在智能体工作负载所在之处。Cursor CEO Michael Truell 也这样说道:"Claude Fable 5 是 CursorBench 上的业界领先模型。它打开了一类此前遥不可及的长期任务。"

早期真实世界数据也佐证了这一点。Stripe 报告称,一项预计需团队两个多月的 5000 万行 Ruby 代码库迁移,在一天内完成。

来源

Ready to Experience Claude 5?

Try Now