分析
Claude Opus 4.6 ベンチマーク深掘り: SWE-bench、GPQAなど
SWE-bench、GPQA、HumanEval、MATHにわたるClaude Opus 4.6のベンチマークパフォーマンスの包括的分析。手法と競合比較を含む。
February 2026
要約
Claude Opus 4.6はSWE-bench Verifiedで82.1%(業界最高)、GPQA Diamondで88.5%、HumanEvalで97.8%、MATHで94.2%を達成しています。これらの結果は、利用可能な最も高性能なコーディングAIとしての地位を確立しています。
SWE-bench Verified:82.1%
実世界のGitHub issue解決における業界最高スコア。
競合比較
| ベンチマーク | Opus 4.6 | GPT-5.2 | Gemini 3 |
|---|
| SWE-bench | 82.1% | 76.3% | 78.4% |
| GPQA | 88.5% | 85.1% | 82.7% |
結論
Claude Opus 4.6のベンチマークパフォーマンスは、主要なコーディングAIとしての地位を裏付けています。