分析

Claude Fable 5 如何保持安全:安全架构详解

深入解析让 Mythos 级模型可以安全公开使用的防护机制:分类器、Opus 4.8 回退、红队测试与蒸馏防护。

2026年6月10日

TL;DR

Claude Fable 5 是一个通过分层防护实现普遍可用的 Mythos 级模型:网络安全分类器触发时将查询交由 Claude Opus 4.8 回答,另有生物和化学分类器以及蒸馏防护。防护机制平均在不到 5% 的会话中触发,超过 1000 小时的外部红队测试未发现任何通用越狱方法。

为什么 Fable 5 需要不同的安全叙事

Fable 5 与 Claude Mythos 5 共享同一个底层模型,而 Anthropic 表示后者拥有全球所有模型中最强的网络安全能力。要把这种能力水平开放给公众,就需要一套既能约束滥用、又不损害日常可用性的安全架构。设计目标是精准:只拦截那一小部分危险用途,其余一概放行。

分类器层

最具特色的机制是带优雅回退的网络安全分类器。当分类器在某个查询上触发时,请求不会被直接拒绝——而是改由 Claude Opus 4.8 回答。处于敏感领域的用户仍然得到高水平的回应,只是得不到 Mythos 级的攻击性能力。生物和化学领域由平行的分类器覆盖。

摩擦成本很低。在真实使用中,防护机制平均在不到 5% 的会话中触发,意味着超过 95% 的会话完全运行在 Fable 5 的全部能力之上,没有任何干预。

红队测试与对齐

发布之前,外部红队人员花费超过 1000 小时攻击该系统,未发现任何通用越狱方法——即没有任何能够全面剥除防护的可靠技术。另外,Anthropic 的对齐评估发现其失准行为水平与 Claude Opus 4.8 相当,说明能力跃升并未伴随对齐能力的倒退。

蒸馏防护与数据保留

两项不那么显眼的措施补全了这套架构:

  • 蒸馏防护,防止竞争者或恶意行为者利用 Fable 5 的输出训练出复制其能力却不带防护的模型
  • Mythos 级模型要求对企业客户流量保留 30 天数据,仅用于安全监控——明确不用于训练

数据保留要求值得提请采用 Fable 5 的企业合规团队注意,但其用途——发现滥用模式——界定得非常清晰。

双轨发布本身就是安全机制

Fable 5 与 Mythos 5 的拆分本身就是安全设计的一部分。不应公开的能力——解除防护的网络与生物工作——被限制在 Mythos 5 中,仅向通过 Project Glasswing(与美国政府合作,覆盖 15 个以上国家约 150 家新机构)审查的网络防御者和基础设施提供商开放,之后还将通过可信访问计划向部分生物医学研究者开放。其他所有人得到的是同样的智能,外加完整的护栏。

对用户而言,实际结论令人安心:防护机制基本不可见,回退机制让被触发的会话仍然高效,而整套系统经受住了严肃的对抗性测试。

Sources

Ready to Experience Claude 5?

Try Now