分析

Claude 5 基准预测:SWE-bench 及更多

数据驱动的 Claude 5 基准性能预测。历史分析、扩展规律,以及 SWE-bench、GPQA、ARC-AGI 等预期得分。

February 2026

摘要

基于扩展规律和历史模式,Claude 5 预计将达到:SWE-bench Verified 85-92%、GPQA Diamond 90%+、HumanEval 99%+、ARC-AGI-2 45-55%。Fennec 泄露显示 Sonnet 5 已达到 80.9% SWE-bench,验证了激进预测的合理性。

历史扩展分析

模型SWE-bench提升
Claude 3 Opus49.0%基准
Claude 3.5 Sonnet64.0%+15 分
Claude 4 Sonnet72.0%+8 分
Claude 4.5 Opus80.9%+8.9 分
Claude 5(预测)85-92%+4-11 分

每一代的绝对增幅在递减,但保持 10-15% 的一致相对提升。

SWE-bench 预测

保守估计:85%

    • 基于典型的 5-6 分代际提升
      • 考虑基准饱和效应
        • 假设架构的渐进改进

        乐观估计:92%

          • Agent 原生架构实现更好的任务分解
            • 扩展上下文帮助理解完整代码库
              • Dev Team 模式实现多角度分析

              基准测试的局限性

              Hacker News 讨论提出了合理的质疑:

                • 模型可能记忆了基准答案
                  • 真实世界性能与基准不同
                    • "手感" 通常比发布分数更适合做选择依据

                    建议:在你的实际使用场景上测试,而不仅仅看发布的基准分数。

                    竞争格局

                    基准测试Claude 5GPT-5.2Gemini 3
                    SWE-bench第 1(85-92%)第 3(76%)第 2(78%)
                    GPQA第 1(90%+)第 2(85%)第 3(82%)
                    ARC-AGI-2第 3(50%)第 1(54%)第 2(52%)
                    AIME第 2(95%)第 1(100%)第 3(92%)

                    结论

                    Claude 5 预计将在编程基准(SWE-bench、HumanEval)和科学推理(GPQA)上领先,同时在纯数学(AIME)和抽象推理(ARC-AGI-2)上落后。真实世界性能取决于你的具体使用场景——基准分数是指标,而非保证。

Ready to Experience Claude 5?

Try Now