从 Opus 4.8 迁移到 Claude Fable 5：时机与方法

TL;DR

Claude Fable 5 大幅领先 Opus 4.8——SWE-Bench Pro 80.3% 对 69.2%，长程记忆测试中表现高出 3 倍——价格则正好是两倍：每百万输入/输出 token 10 美元和 50 美元，对比 5 美元和 25 美元。建议先迁移长程和高复杂度的工作负载，常规任务留在 Opus 4.8 上，并利用 6 月 9-22 日付费计划的免费窗口在付费前完成验证。

你能得到什么

相对 Opus 4.8 的能力差距对单次发布而言异常之大：

SWE-Bench Pro：80.3% 对 69.2%，提升 11 个百分点

长程记忆：使用基于文件的记忆游玩 Slay the Spire，表现高出 3 倍

长上下文专注力可贯穿数百万 token

业界最先进的视觉能力，包括仅凭视觉通关 Pokemon FireRed（早期模型需要辅助工具）

更少轮次完成任务——Equinox CTO Luke Anderson："Claude Fable 5 delivers more capable engineering in fewer turns than prior models."（用更少的轮次交付更强的工程能力。）

Andrej Karpathy 称其为 "a major-version-bump-deserving step change forward"（一次配得上大版本号跃升的阶跃式进步）。对齐方面同样平稳：Anthropic 的评估发现其失准行为水平与 Opus 4.8 相当。

成本几何

Opus 4.8

Fable 5

每百万输入 token

5 美元

10 美元

每百万输出 token

25 美元

50 美元

正确的比较口径是每完成一个任务的成本，而不是每 token 的成本。如果 Fable 5 轮次更少、失败更少，两倍的 token 溢价在复杂工作上可能持平甚至更划算。而在 Opus 4.8 已经稳定胜任的简单、边界清晰的任务上，溢价带来的收益很小——这类任务保持原样即可。

需要预先考虑的行为差异

两点运维提示。第一，安全回退：Fable 5 配备网络安全、生物和化学分类器，触发时查询会改由 Claude Opus 4.8 回答。触发率平均不到 5% 的会话，但如果你从事安全或生命科学工作，要预期部分会话将运行在 Opus 4.8 级别的能力上。第二，数据保留：Mythos 级模型要求对企业客户流量保留 30 天，仅用于安全监控、不用于训练——请同步给合规团队。