研究2026年6月10日

深入 Claude Fable 5 的安全架构:分类器、Opus 4.8 回退与 30 天保留

Anthropic 如何让一款 Mythos 级模型对公众安全:带 Opus 4.8 回退的网络安全分类器、低于 5% 的触发率、1000 多小时红队测试以及 30 天保留政策。

Claude Fable 5 背后的核心工程问题从来不只是能力——而是约束。Fable 5 与访问受限的 Claude Mythos 5 是同一个底层模型,Anthropic 称后者拥有全球任何模型中最强的网络安全能力。要让这样的模型对公众安全可用,需要一套分层的安全架构,Anthropic 在 6 月 9 日发布时对此作了详述。

分类器与回退设计

核心机制是一组网络安全分类器,对敏感领域的查询进行筛查。当某个分类器触发时,查询并不会被直接拒绝——而是改由 Claude Opus 4.8 回答,这是一款能力强但危险性更低的模型。这一交接平均在低于 5% 的会话中触发,意味着绝大多数用户从不会遇到它。

同样的模式延伸到其他风险领域:

  • 生物与化学分类器筛查危险的生命科学查询。
  • 蒸馏防护阻止旨在训练竞争模型的能力提取。
  • 整体对齐水平据报告与 Opus 4.8 相近。

红队测试结果

Anthropic 公布了异常具体的对抗测试数据。该模型经过了超过 1000 小时的外部红队测试,未发现任何通用越狱方法。一家外部合作伙伴确认,针对已部署系统,"与策划网络攻击相关的单轮有害请求成功率为零"。

30 天保留要求

Mythos 级模型附带一项企业客户应当注意的数据处理变更:业务客户流量需遵守 30 天数据保留。Anthropic 对边界有明确说明——保留的数据仅用于安全监控,而非训练,且每一次人工访问该数据都有日志记录。这一要求为 Anthropic 的安全团队提供了一个窗口,以便在已部署的模型集群中检测滥用模式。

两个模型,同一个大脑

这套架构解释了 Anthropic 的双轨发布。在部分领域解除防护的 Claude Mythos 5,仅通过 Project Glasswing 提供给经过审核的网络防御者和基础设施提供商——与美国政府合作,覆盖 15 多个国家约 150 家新机构——以及稍后的部分生物医学研究人员。Fable 5 是公开的一面:相同的能力底座,外面包裹着分类器、回退和监控。

TechCrunch 指出,此次发布恰在 Anthropic 警告 AI 正变得过于危险的几天后。这套安全堆栈正是该公司对自身警告的回应:与其雪藏该模型,它押注分类器路由、红队验证和可审计的保留机制,能让 Mythos 级能力在公开环境中得以存续。

来源

Ready to Experience Claude 5?

Try Now