分析February 7, 2026

Claude 5 预计在 SWE-bench 上达到 85%+：基准分析

为什么 Claude 5 预计在 SWE-bench Verified 上达到 85%+ 的技术分析。缩放定律、架构改进和行业预期。

Claude 5 SWE-bench 预测

行业分析师预计 Claude 5 在 SWE-bench Verified 上达到 85%+。

历史进展

模型

SWE-bench

提升

Claude 3 Opus

49.0%

基准线

Claude 3.5 Sonnet

64.0%

+15 分

Claude 4.5 Opus

80.9%

+16.9 分

Claude 5（预估）

85-92%

+4-11 分

为什么 85%+ 可实现

1. 架构改进： Agent 原生设计更好的任务分解

2. 训练进步： 更多样化的代码训练数据

3. Fennec 证据： Sonnet 5 已达 80.9%，Opus 通常高出 5-10 分

85% 的实际意义

每 100 个问题样本：

85 个自主解决

15 个需要人工干预

显著节省开发者时间

总结

Claude 5 达到 85%+ SWE-bench 有充分的缩放定律和早期证据支持。Agent 原生架构可能将分数推得更高。

Ready to Experience Claude 5?

Back to All News