Claude Fable 5 基准测试:SWE-Bench Pro 80.3%,领先全场 11 个百分点
Claude Fable 5 在 SWE-Bench Pro 上取得 80.3%,而 Opus 4.8 为 69.2%、GPT-5.5 为 58.6%、Gemini 3.1 Pro 为 54.2%,并在 Cognition FrontierCode 上取得最高分。
Claude Fable 5 不只是险胜对手——而是把它们甩开了一圈。在 6 月 9 日发布时公布的基准结果中,Anthropic 的新模型在 SWE-Bench Pro 上取得 80.3%,领先次优前沿模型约 11 个百分点。
数据
衡量真实世界软件工程能力的 SWE-Bench Pro 对比如下:
| 模型 | SWE-Bench Pro |
| Claude Fable 5 | 80.3% |
| Claude Opus 4.8 | 69.2% |
| GPT-5.5 | 58.6% |
| Gemini 3.1 Pro | 54.2% |
Fable 5 与 Anthropic 自家 Opus 4.8 之间的差距——超过 11 个百分点——大于 Opus 4.8 与谷歌 Gemini 3.1 Pro 之间的差距。Fable 5 还在 Cognition 的 FrontierCode 评测中取得前沿模型最高分,这是衡量前沿编码能力的另一个独立指标。
几乎处处领先
Anthropic 表示,Fable 5 在几乎所有受测能力基准上均达到业界领先水平,在长任务和复杂任务上优势最大。Andrej Karpathy 在评价这些结果时称此次发布是"一次配得上大版本升级的阶跃式进步",并将这些基准描述为"在所有项目上都以明显优势领先",指出该模型在"针对极难问题的长时间求解会话"中尤其强大。
除编码外,评测结果还延伸至其他模态:
- 视觉: 在从科学图表中提取数字、根据截图重建网页应用方面达到业界领先水平。该模型仅凭视觉通关了 Pokémon FireRed。
- 长上下文: 支持数百万 Token。借助基于文件的记忆机制,Fable 5 玩 Slay the Spire 的表现比 Opus 4.8 好 3 倍。
长任务领先为何重要
前沿模型迭代之间相差一两个百分点很常见;而在 SWE-Bench Pro 上跃升 11 个百分点则不然。结果中的规律——在最长、最难的任务上提升最大——表明这一进步恰好集中在智能体工作负载所在之处。Cursor CEO Michael Truell 也这样说道:"Claude Fable 5 是 CursorBench 上的业界领先模型。它打开了一类此前遥不可及的长期任务。"
早期真实世界数据也佐证了这一点。Stripe 报告称,一项预计需团队两个多月的 5000 万行 Ruby 代码库迁移,在一天内完成。