用 Claude Fable 5 写代码:基准成绩、Stripe 迁移案例与真实工作流
Claude Fable 5 为软件工程带来的改变:80.3% 的 SWE-Bench Pro 得分、一天完成 5000 万行代码迁移,以及全新的智能体工作流。
TL;DR
Claude Fable 5 是迄今发布的最强编程模型:SWE-Bench Pro 得分 80.3%,相比之下 Opus 4.8 为 69.2%、GPT-5.5 为 58.6%、Gemini 3.1 Pro 为 54.2%;此外它还在 Cognition 的 FrontierCode 评测(代码质量与效率)中取得前沿模型最高分。在一次早期测试中,Stripe 用一天时间完成了一个 5000 万行 Ruby 代码库的迁移,而这项工作原本估计需要一个团队两个多月。
基准全貌
SWE-Bench Pro 衡量模型能否端到端解决真实的软件工程任务。Fable 5 的 80.3% 领先第二名约 11 个百分点。FrontierCode 增加了第二个维度——不只看任务是否完成,还看产出代码的质量和效率——Fable 5 同样位居前沿模型之首。
定性反馈与数据一致。Cursor CEO Michael Truell:"Claude Fable 5 is the state of the art model on CursorBench. It's opened up a class of long-horizon problems that were out of reach."(Claude Fable 5 是 CursorBench 上的最先进模型,它打开了一类此前遥不可及的长程问题。)Lyzr CTO Fabian Hedin:"Apps that took a hundred prompts a year ago, it now one-shots."(一年前需要上百条提示的应用,它现在一次就能搞定。)
Stripe 迁移案例
最引人注目的早期成果来自 Stripe:横跨 5000 万行 Ruby 代码库的迁移在一天内完成,而内部估计需要一个工程团队两个多月。Anthropic 将其描述为 "compressed months of engineering into days"(把数月的工程压缩成了几天)。Fable 5 的两个特质使之成为可能:
- 长上下文耐力——模型能在数百万 token 中保持专注,不会在代码库级任务进行到一半时丢失线索
- 更少的纠错轮次——正如 Equinox CTO Luke Anderson 所说,它 "delivers more capable engineering in fewer turns than prior models"(用更少的轮次交付更强的工程能力)
日常工作流的变化
实际的转变在于可以交付出去的工作单元变大了。在以往的模型上,安全的委托单元是一个函数、一个文件或一个小 PR。在 Fable 5 上,早期用户已经开始把多日的重构、依赖升级和迁移作为单个任务整体交付,只需事先写清楚规格。GitHub 首席产品官 Mario Rodriguez 这样描述趋势:"What excites us most is the direction it points: a future where developers can hand increasingly ambitious work to agents."(最令我们兴奋的是它指向的方向:开发者可以把越来越宏大的工作交给智能体的未来。)
在 6 月 9-22 日付费 Claude 计划的免费窗口期间,值得尝试的具体模式:
- 用一份完整、清晰的任务说明一次性交代全部需求,让模型长时间自主运行,而不是逐轮引导
- 对跨会话项目使用基于文件的记忆——在使用文件记忆游玩 Slay the Spire 的测试中,Fable 5 的表现是 Opus 4.8 的 3 倍
- 把它指向真实的迁移积压:框架升级、API 弃用、类型系统改造,正是它最擅长的长程任务形态
面向开发者的可用性
Fable 5 已在 Claude API 上全面开放,价格为每百万输入 token 10 美元、输出 50 美元,并在 Amazon Bedrock 和 GitHub Copilot 上正式可用——可以立即接入现有的 AWS 和 GitHub 开发栈。