Claude Fable 5 安全架构：分类器与回退机制

TL;DR

Claude Fable 5 是一个通过分层防护实现普遍可用的 Mythos 级模型：网络安全分类器触发时将查询交由 Claude Opus 4.8 回答，另有生物和化学分类器以及蒸馏防护。防护机制平均在不到 5% 的会话中触发，超过 1000 小时的外部红队测试未发现任何通用越狱方法。

为什么 Fable 5 需要不同的安全叙事

Fable 5 与 Claude Mythos 5 共享同一个底层模型，而 Anthropic 表示后者拥有全球所有模型中最强的网络安全能力。要把这种能力水平开放给公众，就需要一套既能约束滥用、又不损害日常可用性的安全架构。设计目标是精准：只拦截那一小部分危险用途，其余一概放行。

分类器层

最具特色的机制是带优雅回退的网络安全分类器。当分类器在某个查询上触发时，请求不会被直接拒绝——而是改由 Claude Opus 4.8 回答。处于敏感领域的用户仍然得到高水平的回应，只是得不到 Mythos 级的攻击性能力。生物和化学领域由平行的分类器覆盖。

摩擦成本很低。在真实使用中，防护机制平均在不到 5% 的会话中触发，意味着超过 95% 的会话完全运行在 Fable 5 的全部能力之上，没有任何干预。

红队测试与对齐

发布之前，外部红队人员花费超过 1000 小时攻击该系统，未发现任何通用越狱方法——即没有任何能够全面剥除防护的可靠技术。另外，Anthropic 的对齐评估发现其失准行为水平与 Claude Opus 4.8 相当，说明能力跃升并未伴随对齐能力的倒退。

蒸馏防护与数据保留

两项不那么显眼的措施补全了这套架构：

蒸馏防护，防止竞争者或恶意行为者利用 Fable 5 的输出训练出复制其能力却不带防护的模型

Mythos 级模型要求对企业客户流量保留 30 天数据，仅用于安全监控——明确不用于训练

数据保留要求值得提请采用 Fable 5 的企业合规团队注意，但其用途——发现滥用模式——界定得非常清晰。

双轨发布本身就是安全机制

Fable 5 与 Mythos 5 的拆分本身就是安全设计的一部分。不应公开的能力——解除防护的网络与生物工作——被限制在 Mythos 5 中，仅向通过 Project Glasswing（与美国政府合作，覆盖 15 个以上国家约 150 家新机构）审查的网络防御者和基础设施提供商开放，之后还将通过可信访问计划向部分生物医学研究者开放。其他所有人得到的是同样的智能，外加完整的护栏。

对用户而言，实际结论令人安心：防护机制基本不可见，回退机制让被触发的会话仍然高效，而整套系统经受住了严肃的对抗性测试。

Sources

Anthropic：Claude Fable 5 与 Mythos 5 发布公告

TechCrunch 关于发布与 Anthropic 安全警告的报道

AWS 博客：内置防护的 Mythos 级能力

Claude Fable 5 如何保持安全：安全架构详解