突发新闻February 6, 2026

泄露的 Claude 5 基准测试显示性能较 Claude 4.5 大幅提升 25%

非官方基准测试泄露显示 Claude 5 有望在 SWE-bench 上达到 92%，HumanEval 上达到 99.1%，为 AI 编码能力创造新纪录。

Claude 5 基准泄露：性能飞跃

多个来源泄露的基准数据显示 Claude 5 在所有主要测试中大幅提升。

泄露基准

基准

Claude 4.5

Claude 5 (泄露)

提升

SWE-bench

80.9%

92.3%

+11.4

HumanEval

98.1%

99.1%

+1.0

MBPP

96.4%

98.9%

+2.5

GPQA

87.3%

87.4%

+0.1

关键发现

SWE-bench 92.3%

这将是首次有 AI 模型在该基准上超过 90%，意味着每 100 个真实 GitHub 问题可自主解决 92 个。

全面提升

不是单一基准改进，而是跨所有评测的系统性提升，表明基础能力的根本性增强。

可信度分析

多个独立来源确认

数据格式符合内部文档

与 CEO 公开暗示一致

可信度：75%

总结

如果泄露属实，Claude 5 将代表 AI 编码能力的代际飞跃，在所有关键基准上确立压倒性领先。

Ready to Experience Claude 5?

Back to All News