Claude Fable 5 基准：SWE-Bench Pro 80.3%，领先 11 分

Claude Fable 5 不只是险胜对手——而是把它们甩开了一圈。在 6 月 9 日发布时公布的基准结果中，Anthropic 的新模型在 SWE-Bench Pro 上取得 80.3%，领先次优前沿模型约 11 个百分点。

数据

衡量真实世界软件工程能力的 SWE-Bench Pro 对比如下：

模型	SWE-Bench Pro

Claude Fable 5

80.3%

Claude Opus 4.8

69.2%

GPT-5.5

58.6%

Gemini 3.1 Pro

54.2%

Fable 5 与 Anthropic 自家 Opus 4.8 之间的差距——超过 11 个百分点——大于 Opus 4.8 与谷歌 Gemini 3.1 Pro 之间的差距。Fable 5 还在 Cognition 的 FrontierCode 评测中取得前沿模型最高分，这是衡量前沿编码能力的另一个独立指标。

几乎处处领先

Anthropic 表示，Fable 5 在几乎所有受测能力基准上均达到业界领先水平，在长任务和复杂任务上优势最大。Andrej Karpathy 在评价这些结果时称此次发布是"一次配得上大版本升级的阶跃式进步"，并将这些基准描述为"在所有项目上都以明显优势领先"，指出该模型在"针对极难问题的长时间求解会话"中尤其强大。

除编码外，评测结果还延伸至其他模态：

视觉： 在从科学图表中提取数字、根据截图重建网页应用方面达到业界领先水平。该模型仅凭视觉通关了 Pokémon FireRed。

长上下文： 支持数百万 Token。借助基于文件的记忆机制，Fable 5 玩 Slay the Spire 的表现比 Opus 4.8 好 3 倍。

长任务领先为何重要

前沿模型迭代之间相差一两个百分点很常见；而在 SWE-Bench Pro 上跃升 11 个百分点则不然。结果中的规律——在最长、最难的任务上提升最大——表明这一进步恰好集中在智能体工作负载所在之处。Cursor CEO Michael Truell 也这样说道："Claude Fable 5 是 CursorBench 上的业界领先模型。它打开了一类此前遥不可及的长期任务。"

早期真实世界数据也佐证了这一点。Stripe 报告称，一项预计需团队两个多月的 5000 万行 Ruby 代码库迁移，在一天内完成。

来源

Anthropic：Claude Fable 5 与 Claude Mythos 5

Interconnects：Claude Fable 5 与新的 AI 安全

VentureBeat 分析

Claude Fable 5 基准测试：SWE-Bench Pro 80.3%，领先全场 11 个百分点

数据

几乎处处领先

长任务领先为何重要

来源

Ready to Experience Claude 5?