Claude Fable 5 长上下文与记忆能力深度解析
Claude Fable 5 如何在数百万 token 中保持专注,以及它在 Slay the Spire 上 3 倍于 Opus 4.8 的成绩揭示了什么。
TL;DR
Claude Fable 5 能在数百万 token 中保持专注,是 Anthropic 迄今发布的长上下文能力最强的模型。在使用基于文件的记忆游玩 Slay the Spire 的测试中,它的表现是 Claude Opus 4.8 的 3 倍。配合 80.3% 的 SWE-Bench Pro 得分,正是这种能力解锁了 Stripe 一天完成 5000 万行迁移这样的代码库级任务。
重点是专注,而不只是容量
长上下文宣传通常说的是容量——窗口里能装下多少 token。Anthropic 对 Fable 5 的主张针对的是更难的问题:在数百万 token 中保持专注。窗口很大的模型在实践中往往会退化:忘记开头的指令、丢失中间状态,或在长时间运行后偏离任务。Fable 5 的标志性改进在于质量能贯穿全程。
这也是 Anthropic 把长程和复杂任务列为 Fable 5 优势最突出领域的原因,以及 Cursor CEO Michael Truell 为何说它 "opened up a class of long-horizon problems that were out of reach"(打开了一类此前遥不可及的长程问题)。
Slay the Spire 测试结果
最具体的记忆数据点来自一款游戏:使用基于文件的记忆游玩 Slay the Spire,Fable 5 的表现是 Opus 4.8 的 3 倍。测试设置本身很说明问题。Slay the Spire 是一款 Roguelike 卡组构建游戏,玩好它需要记住卡组构成、遗物协同,以及此前遭遇战中的经验——这些状态远超工作上下文能轻松容纳的范围。模型必须决定把什么写进记忆文件、保持笔记的条理,并在之后真正去查阅它们。
在这个闭环上拉开 3 倍的差距,意味着 Fable 5 在元技能上强得多:知道什么值得记住、如何有用地记录、何时恰当地取回。这种技能可以直接迁移到跨会话编码智能体、长期运行的研究任务,以及任何需要智能体"接着上次继续"的工作流。
这在实践中解锁了什么
- 代码库级工作:Stripe 的 5000 万行 Ruby 迁移在一天内完成,而非原本估计的两个多月——只有模型在巨大任务全程保持连贯才可能做到
- 通宵和多日的智能体运行:在长程复杂任务上的业界最先进表现意味着更少的人工盯守节点
- 持久型助手:基于文件的记忆加上长上下文专注,让智能体可以跨多个会话维护同一个项目,无需反复解释背景
用 Fable 5 做长上下文工作的建议
- 把完整的任务规格放在最前面;模型能在整个运行过程中持续持有它
- 为任何跨会话工作给智能体一个可写的记忆目录——Slay the Spire 的结果表明 Fable 5 对它的利用远胜以往模型
- 利用 6 月 9-22 日 Pro、Max、Team 和 Enterprise 计划的免费窗口,用你最长的真实工作负载做压力测试,再决定是否按每百万 token 10 美元/50 美元的费率投入预算