벤치마크February 17, 2026
Claude Sonnet 4.6, SWE-bench 79.6% 달성, Opus 4.6과 1.2% 차이
새 Sonnet 모델이 플래그십과의 코딩 벤치마크 격차를 줄여 중간 티어 가격으로 업계 선도 성능을 달성했습니다.
Sonnet이 플래그십 영역에 도달
Claude Sonnet 4.6의 SWE-bench Verified 79.6% 점수는 Opus 4.6의 80.8%에 근접하게 합니다—불과 1.2포인트 차이입니다.
역사적 맥락
Sonnet 클래스 모델의 빠른 향상:
| 모델 | SWE-bench Verified | 날짜 |
| Sonnet 3.5 | 49.0% | 2024년 6월 |
| Sonnet 4 | 72.7% | 2025년 3월 |
| Sonnet 4.5 | 77.2% | 2025년 9월 |
| Sonnet 4.6 | 79.6% | 2026년 2월 |
20개월 만에 Sonnet의 SWE-bench 성능이 30포인트 이상 향상됐습니다.
벤치마크 세부 사항
SWE-bench Verified는 AI 모델을 실제 GitHub 이슈로 테스트합니다:- Python 저장소에서 엄선된 500개의 문제
- 테스트를 통과하는 올바른 패치 생성 필요
- 테스트 데이터에 대한 훈련 없음
- 79.6% 표준 통과율
- 확장 사고/적응형 사고(높은 effort) 시 더 높음
경쟁 환경
| 모델 | SWE-bench Verified | 가격 (입력/출력) |
| Opus 4.6 | 80.8% | $15/$75 |
| Sonnet 4.6 | 79.6% | $3/$15 |
| GPT-5.2 | ~76% | $1.75/$14 |
| Codex 5.3 | 56.8%* | $10/$30 |
*Codex는 다른 벤치마크 변형(SWE-Bench Pro) 사용
격차가 의미하는 것
대부분의 개발 작업에서 79.6% vs 80.8%는 통계적으로 유의미하지 않습니다:
- 두 모델 모두 실제 버그의 ~5개 중 4개를 정확하게 해결
- 개별 실행의 분산이 격차를 초과
- 비용 차이(5배)가 역량 차이(1.2%)를 크게 초과
개발자 관점
"일주일 동안 Sonnet과 Opus를 A/B 테스트했습니다. 제 코드베이스에서 차이를 못 느끼겠습니다. 하지만 청구서에서는 분명히 차이가 납니다." — YC 스타트업 시니어 엔지니어
"티켓의 99%는 Sonnet 4.6이 Opus와 같습니다. 나머지 1%는 에스컬레이션합니다." — 시리즈 B 회사 테크 리드
Opus 4.6이 여전히 앞서는 경우
거의 동등함에도 Opus 4.6이 앞서는 경우:
- 새로운 알고리즘 설계
- 많은 의존성을 가진 다단계 리팩터링
- PhD 수준 과학적 코드
- 최대 정확도 요구 사항 (규제, 금융)
가치 제안
현재 가격 기준:
- SWE-bench 문제 100개: Sonnet 4.6으로 ~$7
- 동일한 문제: Opus 4.6으로 ~$35
- 1.5% 향상을 위해 5배 비용
결론
Sonnet 4.6은 플래그십 수준의 코딩 성능을 사실상 상품화했습니다. 대부분의 팀에게 합리적인 선택은 기본적으로 Sonnet, 예외적으로 Opus입니다.