用 Claude Fable 5 编程：SWE-Bench Pro 80.3% 与 Stripe

TL;DR

Claude Fable 5 是迄今发布的最强编程模型：SWE-Bench Pro 得分 80.3%，相比之下 Opus 4.8 为 69.2%、GPT-5.5 为 58.6%、Gemini 3.1 Pro 为 54.2%；此外它还在 Cognition 的 FrontierCode 评测（代码质量与效率）中取得前沿模型最高分。在一次早期测试中，Stripe 用一天时间完成了一个 5000 万行 Ruby 代码库的迁移，而这项工作原本估计需要一个团队两个多月。

基准全貌

SWE-Bench Pro 衡量模型能否端到端解决真实的软件工程任务。Fable 5 的 80.3% 领先第二名约 11 个百分点。FrontierCode 增加了第二个维度——不只看任务是否完成，还看产出代码的质量和效率——Fable 5 同样位居前沿模型之首。

定性反馈与数据一致。Cursor CEO Michael Truell："Claude Fable 5 is the state of the art model on CursorBench. It's opened up a class of long-horizon problems that were out of reach."（Claude Fable 5 是 CursorBench 上的最先进模型，它打开了一类此前遥不可及的长程问题。）Lyzr CTO Fabian Hedin："Apps that took a hundred prompts a year ago, it now one-shots."（一年前需要上百条提示的应用，它现在一次就能搞定。）

Stripe 迁移案例

最引人注目的早期成果来自 Stripe：横跨 5000 万行 Ruby 代码库的迁移在一天内完成，而内部估计需要一个工程团队两个多月。Anthropic 将其描述为 "compressed months of engineering into days"（把数月的工程压缩成了几天）。Fable 5 的两个特质使之成为可能：

长上下文耐力——模型能在数百万 token 中保持专注，不会在代码库级任务进行到一半时丢失线索

更少的纠错轮次——正如 Equinox CTO Luke Anderson 所说，它 "delivers more capable engineering in fewer turns than prior models"（用更少的轮次交付更强的工程能力）

日常工作流的变化

实际的转变在于可以交付出去的工作单元变大了。在以往的模型上，安全的委托单元是一个函数、一个文件或一个小 PR。在 Fable 5 上，早期用户已经开始把多日的重构、依赖升级和迁移作为单个任务整体交付，只需事先写清楚规格。GitHub 首席产品官 Mario Rodriguez 这样描述趋势："What excites us most is the direction it points: a future where developers can hand increasingly ambitious work to agents."（最令我们兴奋的是它指向的方向：开发者可以把越来越宏大的工作交给智能体的未来。）

在 6 月 9-22 日付费 Claude 计划的免费窗口期间，值得尝试的具体模式：

用一份完整、清晰的任务说明一次性交代全部需求，让模型长时间自主运行，而不是逐轮引导

对跨会话项目使用基于文件的记忆——在使用文件记忆游玩 Slay the Spire 的测试中，Fable 5 的表现是 Opus 4.8 的 3 倍

把它指向真实的迁移积压：框架升级、API 弃用、类型系统改造，正是它最擅长的长程任务形态

面向开发者的可用性

Fable 5 已在 Claude API 上全面开放，价格为每百万输入 token 10 美元、输出 50 美元，并在 Amazon Bedrock 和 GitHub Copilot 上正式可用——可以立即接入现有的 AWS 和 GitHub 开发栈。

Sources

Anthropic：Claude Fable 5 与 Mythos 5 发布公告

GitHub 更新日志：Claude Fable 5 在 Copilot 正式可用

VentureBeat 的报道

用 Claude Fable 5 写代码：基准成绩、Stripe 迁移案例与真实工作流