分析

Claude Opus 4.6 基准深度解析：SWE-bench、GPQA 及更多

全面分析 Claude Opus 4.6 在 SWE-bench、GPQA、HumanEval 和 MATH 上的基准性能，包括方法论和竞品对比。

February 2026

摘要

Claude Opus 4.6 在 SWE-bench Verified 上达到 82.1%（行业领先）、GPQA Diamond 88.5%、HumanEval 97.8%、MATH 94.2%。这些结果确立了其作为最强编程 AI 的地位。

在真实世界 GitHub 问题解决方面的行业领先得分。

基准测试	Opus 4.6	GPT-5.2	Gemini 3

SWE-bench

82.1%

76.3%

78.4%

GPQA

88.5%

85.1%

82.7%

Claude Opus 4.6 的基准性能验证了其作为领先编程 AI 的地位。