Claude Opus 4.6 ベンチマーク深掘り: SWE-bench、GPQAなど

要約

Claude Opus 4.6はSWE-bench Verifiedで82.1%（業界最高）、GPQA Diamondで88.5%、HumanEvalで97.8%、MATHで94.2%を達成しています。これらの結果は、利用可能な最も高性能なコーディングAIとしての地位を確立しています。

実世界のGitHub issue解決における業界最高スコア。

ベンチマーク	Opus 4.6	GPT-5.2	Gemini 3

SWE-bench

82.1%

76.3%

78.4%

GPQA

88.5%

85.1%

82.7%

Claude Opus 4.6のベンチマークパフォーマンスは、主要なコーディングAIとしての地位を裏付けています。