Claude Fable 5 vs GPT-5.5 vs Gemini 3.1 Pro 基准对比

TL;DR

2026 年 6 月 9 日发布的 Claude Fable 5 以罕见的领先幅度站上前沿模型榜首。在 SWE-Bench Pro 上它得分 80.3%，相比之下 Claude Opus 4.8 为 69.2%，GPT-5.5 为 58.6%，Gemini 3.1 Pro 为 54.2%——领先第二名约 11 个百分点。Andrej Karpathy 将整体局面总结为 "SOTA on everything by a margin"（在所有项目上都以明显优势领先）。

核心数据

模型	SWE-Bench Pro

Claude Fable 5

80.3%

Claude Opus 4.8

69.2%

GPT-5.5

58.6%

Gemini 3.1 Pro

54.2%

有两点格外突出。第一，Fable 5 与最接近的非 Anthropic 竞争对手 GPT-5.5 之间的差距超过 21 个百分点。第二，即便是 Anthropic 自家的上一代旗舰 Opus 4.8，也落后 Fable 5 约 11 个百分点。前沿基准的进步通常以个位数百分点计——这次发布显然不是。

在 SWE-Bench Pro 之外，Fable 5 还在 Cognition 的 FrontierCode 评测中取得前沿模型最高分，该评测衡量的不只是任务完成度，而是代码质量与效率。Anthropic 表示该模型在几乎所有测试的能力基准上都达到业界最先进水平，其中长程和复杂任务的提升最大。

榜单之外

基准会压缩很多细节，因此定性证据同样重要。在一次早期测试中，Stripe 用 Fable 5 在一天内完成了横跨 5000 万行 Ruby 代码库的迁移——原本估计需要一个团队两个多月的工作量。Cursor CEO Michael Truell 反馈："Claude Fable 5 is the state of the art model on CursorBench. It's opened up a class of long-horizon problems that were out of reach."（Claude Fable 5 是 CursorBench 上的最先进模型，它打开了一类此前遥不可及的长程问题。）

在视觉方面，Fable 5 在从科学图表中提取精确数值和根据截图重建 Web 应用上达到业界最先进水平，并且仅凭视觉就通关了 Pokemon FireRed——早期模型完成这一任务需要辅助工具。在长上下文方面，它能在数百万 token 中保持专注；在使用基于文件的记忆游玩 Slay the Spire 的测试中，其表现是 Opus 4.8 的 3 倍。

领先的代价

Fable 5 的价格是每百万输入 token 10 美元、每百万输出 token 50 美元——是 Opus 4.8 的两倍。溢价是否划算取决于任务：对于长程智能体工作，更少的失败运行和更少的纠错轮次完全可能抵消更高的单 token 价格。Equinox CTO Luke Anderson 指出："Claude Fable 5 delivers more capable engineering in fewer turns than prior models."（Claude Fable 5 用比以往模型更少的轮次交付更强的工程能力。）

结论

如果你的评估标准是 SWE-Bench Pro、代码质量、视觉或长上下文耐力，那么 Fable 5 目前在所有维度上都领先 GPT-5.5 和 Gemini 3.1 Pro，且领先幅度远超正常的基准波动。竞争对手会做出回应，但截至 2026 年 6 月，前沿只有一个明确的领跑者。它现已登陆 Claude API、Amazon Bedrock 和 GitHub Copilot，并在 6 月 22 日前对付费 Claude 计划免费开放。

Sources

Anthropic：Claude Fable 5 与 Mythos 5 发布公告

VentureBeat：Anthropic 让 Mythos 走向大众

CNBC 对此次发布的报道

Claude Fable 5 vs GPT-5.5 vs Gemini 3.1 Pro：基准测试大对决

TL;DR

核心数据

榜单之外

领先的代价

结论

Sources

Ready to Experience Claude 5?