突发新闻February 6, 2026

泄露的 Claude 5 基准测试显示性能较 Claude 4.5 大幅提升 25%

非官方基准测试泄露显示 Claude 5 有望在 SWE-bench 上达到 92%,HumanEval 上达到 99.1%,为 AI 编码能力创造新纪录。

Claude 5 基准泄露:性能飞跃

多个来源泄露的基准数据显示 Claude 5 在所有主要测试中大幅提升。

泄露基准

基准Claude 4.5Claude 5 (泄露)提升
SWE-bench80.9%92.3%+11.4
HumanEval98.1%99.1%+1.0
MBPP96.4%98.9%+2.5
GPQA87.3%87.4%+0.1

关键发现

SWE-bench 92.3%

这将是首次有 AI 模型在该基准上超过 90%,意味着每 100 个真实 GitHub 问题可自主解决 92 个。

全面提升

不是单一基准改进,而是跨所有评测的系统性提升,表明基础能力的根本性增强。

可信度分析

  • 多个独立来源确认
  • 数据格式符合内部文档
  • 与 CEO 公开暗示一致
  • 可信度:75%

总结

如果泄露属实,Claude 5 将代表 AI 编码能力的代际飞跃,在所有关键基准上确立压倒性领先。

Ready to Experience Claude 5?

Try Now