Claude Sonnet 4.6, SWE-bench 79.6% 달성, Opus 4.6과 1.2% 차이

Sonnet이 플래그십 영역에 도달

Claude Sonnet 4.6의 SWE-bench Verified 79.6% 점수는 Opus 4.6의 80.8%에 근접하게 합니다—불과 1.2포인트 차이입니다.

역사적 맥락

Sonnet 클래스 모델의 빠른 향상:

모델

SWE-bench Verified

날짜

Sonnet 3.5

49.0%

2024년 6월

Sonnet 4

72.7%

2025년 3월

Sonnet 4.5

77.2%

2025년 9월

Sonnet 4.6

79.6%

2026년 2월

20개월 만에 Sonnet의 SWE-bench 성능이 30포인트 이상 향상됐습니다.

벤치마크 세부 사항

SWE-bench Verified는 AI 모델을 실제 GitHub 이슈로 테스트합니다:

Python 저장소에서 엄선된 500개의 문제

테스트를 통과하는 올바른 패치 생성 필요

테스트 데이터에 대한 훈련 없음

Sonnet 4.6 분류:

79.6% 표준 통과율

확장 사고/적응형 사고(높은 effort) 시 더 높음

경쟁 환경

모델

SWE-bench Verified

가격 (입력/출력)

Opus 4.6

80.8%

$15/$75

Sonnet 4.6

79.6%

$3/$15

GPT-5.2

~76%

$1.75/$14

Codex 5.3

56.8%*

$10/$30

*Codex는 다른 벤치마크 변형(SWE-Bench Pro) 사용

격차가 의미하는 것

대부분의 개발 작업에서 79.6% vs 80.8%는 통계적으로 유의미하지 않습니다:

두 모델 모두 실제 버그의 ~5개 중 4개를 정확하게 해결

개별 실행의 분산이 격차를 초과

비용 차이(5배)가 역량 차이(1.2%)를 크게 초과

개발자 관점

"일주일 동안 Sonnet과 Opus를 A/B 테스트했습니다. 제 코드베이스에서 차이를 못 느끼겠습니다. 하지만 청구서에서는 분명히 차이가 납니다." — YC 스타트업 시니어 엔지니어

"티켓의 99%는 Sonnet 4.6이 Opus와 같습니다. 나머지 1%는 에스컬레이션합니다." — 시리즈 B 회사 테크 리드

Opus 4.6이 여전히 앞서는 경우

거의 동등함에도 Opus 4.6이 앞서는 경우:

새로운 알고리즘 설계

많은 의존성을 가진 다단계 리팩터링

PhD 수준 과학적 코드

최대 정확도 요구 사항 (규제, 금융)

가치 제안

현재 가격 기준:

SWE-bench 문제 100개: Sonnet 4.6으로 ~$7

동일한 문제: Opus 4.6으로 ~$35

1.5% 향상을 위해 5배 비용

결론

Sonnet 4.6은 플래그십 수준의 코딩 성능을 사실상 상품화했습니다. 대부분의 팀에게 합리적인 선택은 기본적으로 Sonnet, 예외적으로 Opus입니다.