Claude Opus 4.6 벤치마크 심층 분석: SWE-bench, GPQA 및 더 많은 것

요약

Claude Opus 4.6은 SWE-bench Verified 82.1% (업계 선도), GPQA Diamond 88.5%, HumanEval 97.8%, MATH 94.2%를 달성했습니다. 이 결과들은 가장 강력한 코딩 AI로서의 위치를 확립합니다.

실제 GitHub 이슈 해결에서 업계 선도 점수입니다.

벤치마크	Opus 4.6	GPT-5.2	Gemini 3

SWE-bench

82.1%

76.3%

78.4%

GPQA

88.5%

85.1%

82.7%

Claude Opus 4.6의 벤치마크 성능은 선도적 코딩 AI로서의 위치를 검증합니다.