分析
Claude Opus 4.6 基准深度解析:SWE-bench、GPQA 及更多
全面分析 Claude Opus 4.6 在 SWE-bench、GPQA、HumanEval 和 MATH 上的基准性能,包括方法论和竞品对比。
February 2026
摘要
Claude Opus 4.6 在 SWE-bench Verified 上达到 82.1%(行业领先)、GPQA Diamond 88.5%、HumanEval 97.8%、MATH 94.2%。这些结果确立了其作为最强编程 AI 的地位。
SWE-bench Verified:82.1%
在真实世界 GitHub 问题解决方面的行业领先得分。
竞品对比
| 基准测试 | Opus 4.6 | GPT-5.2 | Gemini 3 |
|---|
| SWE-bench | 82.1% | 76.3% | 78.4% |
| GPQA | 88.5% | 85.1% | 82.7% |
结论
Claude Opus 4.6 的基准性能验证了其作为领先编程 AI 的地位。