突发新闻February 6, 2026
泄露的 Claude 5 基准测试显示性能较 Claude 4.5 大幅提升 25%
非官方基准测试泄露显示 Claude 5 有望在 SWE-bench 上达到 92%,HumanEval 上达到 99.1%,为 AI 编码能力创造新纪录。
Claude 5 基准泄露:性能飞跃
多个来源泄露的基准数据显示 Claude 5 在所有主要测试中大幅提升。
泄露基准
| 基准 | Claude 4.5 | Claude 5 (泄露) | 提升 |
| SWE-bench | 80.9% | 92.3% | +11.4 |
| HumanEval | 98.1% | 99.1% | +1.0 |
| MBPP | 96.4% | 98.9% | +2.5 |
| GPQA | 87.3% | 87.4% | +0.1 |
关键发现
SWE-bench 92.3%
这将是首次有 AI 模型在该基准上超过 90%,意味着每 100 个真实 GitHub 问题可自主解决 92 个。
全面提升
不是单一基准改进,而是跨所有评测的系统性提升,表明基础能力的根本性增强。
可信度分析
- 多个独立来源确认
- 数据格式符合内部文档
- 与 CEO 公开暗示一致
- 可信度:75%
总结
如果泄露属实,Claude 5 将代表 AI 编码能力的代际飞跃,在所有关键基准上确立压倒性领先。