Claude 5 基准预测：预期 SWE-bench 与 GPQA 得分

摘要

基于扩展规律和历史模式，Claude 5 预计将达到：SWE-bench Verified 85-92%、GPQA Diamond 90%+、HumanEval 99%+、ARC-AGI-2 45-55%。Fennec 泄露显示 Sonnet 5 已达到 80.9% SWE-bench，验证了激进预测的合理性。

历史扩展分析

模型	SWE-bench	提升

Claude 3 Opus

49.0%

基准

Claude 3.5 Sonnet

64.0%

+15 分

Claude 4 Sonnet

72.0%

+8 分

Claude 4.5 Opus

80.9%

+8.9 分

Claude 5（预测）

85-92%

+4-11 分

每一代的绝对增幅在递减，但保持 10-15% 的一致相对提升。

SWE-bench 预测

保守估计：85%

基于典型的 5-6 分代际提升

考虑基准饱和效应

假设架构的渐进改进

乐观估计：92%

Agent 原生架构实现更好的任务分解

扩展上下文帮助理解完整代码库

Dev Team 模式实现多角度分析

基准测试的局限性

Hacker News 讨论提出了合理的质疑：

模型可能记忆了基准答案

真实世界性能与基准不同

"手感" 通常比发布分数更适合做选择依据

建议：在你的实际使用场景上测试，而不仅仅看发布的基准分数。

竞争格局

基准测试	Claude 5	GPT-5.2	Gemini 3

SWE-bench

第 1（85-92%）

第 3（76%）

第 2（78%）

GPQA

第 1（90%+）

第 2（85%）

第 3（82%）

ARC-AGI-2

第 3（50%）

第 1（54%）

第 2（52%）

AIME

第 2（95%）

第 1（100%）

第 3（92%）

结论

Claude 5 预计将在编程基准（SWE-bench、HumanEval）和科学推理（GPQA）上领先，同时在纯数学（AIME）和抽象推理（ARC-AGI-2）上落后。真实世界性能取决于你的具体使用场景——基准分数是指标，而非保证。

Claude 5 基准预测：SWE-bench 及更多

摘要

历史扩展分析

SWE-bench 预测

基准测试的局限性

竞争格局

结论

Ready to Experience Claude 5?