Claude Fable 5 安全：分类器、Opus 回退、30 天保留

Claude Fable 5 背后的核心工程问题从来不只是能力——而是约束。Fable 5 与访问受限的 Claude Mythos 5 是同一个底层模型，Anthropic 称后者拥有全球任何模型中最强的网络安全能力。要让这样的模型对公众安全可用，需要一套分层的安全架构，Anthropic 在 6 月 9 日发布时对此作了详述。

分类器与回退设计

核心机制是一组网络安全分类器，对敏感领域的查询进行筛查。当某个分类器触发时，查询并不会被直接拒绝——而是改由 Claude Opus 4.8 回答，这是一款能力强但危险性更低的模型。这一交接平均在低于 5% 的会话中触发，意味着绝大多数用户从不会遇到它。

同样的模式延伸到其他风险领域：

生物与化学分类器筛查危险的生命科学查询。

蒸馏防护阻止旨在训练竞争模型的能力提取。

整体对齐水平据报告与 Opus 4.8 相近。

红队测试结果

Anthropic 公布了异常具体的对抗测试数据。该模型经过了超过 1000 小时的外部红队测试，未发现任何通用越狱方法。一家外部合作伙伴确认，针对已部署系统，"与策划网络攻击相关的单轮有害请求成功率为零"。

30 天保留要求

Mythos 级模型附带一项企业客户应当注意的数据处理变更：业务客户流量需遵守 30 天数据保留。Anthropic 对边界有明确说明——保留的数据仅用于安全监控，而非训练，且每一次人工访问该数据都有日志记录。这一要求为 Anthropic 的安全团队提供了一个窗口，以便在已部署的模型集群中检测滥用模式。

两个模型，同一个大脑

这套架构解释了 Anthropic 的双轨发布。在部分领域解除防护的 Claude Mythos 5，仅通过 Project Glasswing 提供给经过审核的网络防御者和基础设施提供商——与美国政府合作，覆盖 15 多个国家约 150 家新机构——以及稍后的部分生物医学研究人员。Fable 5 是公开的一面：相同的能力底座，外面包裹着分类器、回退和监控。

TechCrunch 指出，此次发布恰在 Anthropic 警告 AI 正变得过于危险的几天后。这套安全堆栈正是该公司对自身警告的回应：与其雪藏该模型，它押注分类器路由、红队验证和可审计的保留机制，能让 Mythos 级能力在公开环境中得以存续。

来源

Anthropic：Claude Fable 5 与 Claude Mythos 5

Interconnects：Claude Fable 5 与新的 AI 安全

NBC News 对此次发布的报道

深入 Claude Fable 5 的安全架构：分类器、Opus 4.8 回退与 30 天保留

分类器与回退设计

红队测试结果

30 天保留要求

两个模型，同一个大脑

来源

Ready to Experience Claude 5?