Claude Fable 5 vs GPT-5.5 vs Gemini 3.1 Pro:基准测试大对决
Claude Fable 5 在 SWE-Bench Pro、FrontierCode、视觉与长上下文性能上与 GPT-5.5、Gemini 3.1 Pro 的全面对比。
TL;DR
2026 年 6 月 9 日发布的 Claude Fable 5 以罕见的领先幅度站上前沿模型榜首。在 SWE-Bench Pro 上它得分 80.3%,相比之下 Claude Opus 4.8 为 69.2%,GPT-5.5 为 58.6%,Gemini 3.1 Pro 为 54.2%——领先第二名约 11 个百分点。Andrej Karpathy 将整体局面总结为 "SOTA on everything by a margin"(在所有项目上都以明显优势领先)。
核心数据
| 模型 | SWE-Bench Pro |
| Claude Fable 5 | 80.3% |
| Claude Opus 4.8 | 69.2% |
| GPT-5.5 | 58.6% |
| Gemini 3.1 Pro | 54.2% |
有两点格外突出。第一,Fable 5 与最接近的非 Anthropic 竞争对手 GPT-5.5 之间的差距超过 21 个百分点。第二,即便是 Anthropic 自家的上一代旗舰 Opus 4.8,也落后 Fable 5 约 11 个百分点。前沿基准的进步通常以个位数百分点计——这次发布显然不是。
在 SWE-Bench Pro 之外,Fable 5 还在 Cognition 的 FrontierCode 评测中取得前沿模型最高分,该评测衡量的不只是任务完成度,而是代码质量与效率。Anthropic 表示该模型在几乎所有测试的能力基准上都达到业界最先进水平,其中长程和复杂任务的提升最大。
榜单之外
基准会压缩很多细节,因此定性证据同样重要。在一次早期测试中,Stripe 用 Fable 5 在一天内完成了横跨 5000 万行 Ruby 代码库的迁移——原本估计需要一个团队两个多月的工作量。Cursor CEO Michael Truell 反馈:"Claude Fable 5 is the state of the art model on CursorBench. It's opened up a class of long-horizon problems that were out of reach."(Claude Fable 5 是 CursorBench 上的最先进模型,它打开了一类此前遥不可及的长程问题。)
在视觉方面,Fable 5 在从科学图表中提取精确数值和根据截图重建 Web 应用上达到业界最先进水平,并且仅凭视觉就通关了 Pokemon FireRed——早期模型完成这一任务需要辅助工具。在长上下文方面,它能在数百万 token 中保持专注;在使用基于文件的记忆游玩 Slay the Spire 的测试中,其表现是 Opus 4.8 的 3 倍。
领先的代价
Fable 5 的价格是每百万输入 token 10 美元、每百万输出 token 50 美元——是 Opus 4.8 的两倍。溢价是否划算取决于任务:对于长程智能体工作,更少的失败运行和更少的纠错轮次完全可能抵消更高的单 token 价格。Equinox CTO Luke Anderson 指出:"Claude Fable 5 delivers more capable engineering in fewer turns than prior models."(Claude Fable 5 用比以往模型更少的轮次交付更强的工程能力。)
结论
如果你的评估标准是 SWE-Bench Pro、代码质量、视觉或长上下文耐力,那么 Fable 5 目前在所有维度上都领先 GPT-5.5 和 Gemini 3.1 Pro,且领先幅度远超正常的基准波动。竞争对手会做出回应,但截至 2026 年 6 月,前沿只有一个明确的领跑者。它现已登陆 Claude API、Amazon Bedrock 和 GitHub Copilot,并在 6 月 22 日前对付费 Claude 计划免费开放。