分析
Claude 5 基准预测:SWE-bench 及更多
数据驱动的 Claude 5 基准性能预测。历史分析、扩展规律,以及 SWE-bench、GPQA、ARC-AGI 等预期得分。
February 2026
摘要
基于扩展规律和历史模式,Claude 5 预计将达到:SWE-bench Verified 85-92%、GPQA Diamond 90%+、HumanEval 99%+、ARC-AGI-2 45-55%。Fennec 泄露显示 Sonnet 5 已达到 80.9% SWE-bench,验证了激进预测的合理性。
历史扩展分析
| 模型 | SWE-bench | 提升 |
|---|
| Claude 3 Opus | 49.0% | 基准 |
| Claude 3.5 Sonnet | 64.0% | +15 分 |
| Claude 4 Sonnet | 72.0% | +8 分 |
| Claude 4.5 Opus | 80.9% | +8.9 分 |
| Claude 5(预测) | 85-92% | +4-11 分 |
每一代的绝对增幅在递减,但保持 10-15% 的一致相对提升。
SWE-bench 预测
保守估计:85%
- 基于典型的 5-6 分代际提升
- 考虑基准饱和效应
- 假设架构的渐进改进
- Agent 原生架构实现更好的任务分解
- 扩展上下文帮助理解完整代码库
- Dev Team 模式实现多角度分析
- 模型可能记忆了基准答案
- 真实世界性能与基准不同
- "手感" 通常比发布分数更适合做选择依据
乐观估计:92%
基准测试的局限性
Hacker News 讨论提出了合理的质疑:
建议:在你的实际使用场景上测试,而不仅仅看发布的基准分数。
竞争格局
| 基准测试 | Claude 5 | GPT-5.2 | Gemini 3 |
|---|
| SWE-bench | 第 1(85-92%) | 第 3(76%) | 第 2(78%) |
| GPQA | 第 1(90%+) | 第 2(85%) | 第 3(82%) |
| ARC-AGI-2 | 第 3(50%) | 第 1(54%) | 第 2(52%) |
| AIME | 第 2(95%) | 第 1(100%) | 第 3(92%) |
结论
Claude 5 预计将在编程基准(SWE-bench、HumanEval)和科学推理(GPQA)上领先,同时在纯数学(AIME)和抽象推理(ARC-AGI-2)上落后。真实世界性能取决于你的具体使用场景——基准分数是指标,而非保证。