일대일 테스트에서 사용자들이 Claude Sonnet 4.6을 Opus 4.5보다 선호

중간 티어 모델이 이전 플래그십 능가

Anthropic이 "세대적 도약"이라고 부르는 것처럼, 사용자 테스트에서 Claude Sonnet 4.6이 이전 플래그십 Opus 4.5를 선호도 테스트에서 이겼습니다.

테스트 결과

Sonnet 4.6 vs Sonnet 4.5: 70%가 Sonnet 4.6 선호 Sonnet 4.6 vs Opus 4.5: 59%가 Sonnet 4.6 선호

사용자들이 Sonnet 4.6을 선호하는 이유

정성적 피드백에서 세 가지 요인이 강조됩니다:

1. 더 나은 지시 따르기

"Sonnet 4.6은 실제로 내가 요청한 것을 합니다. Opus는 종종 내가 원하지 않는 방식으로 내 요청을 '개선'했습니다."

2. 낮은 환각

"틀린 답에 덜 자신감 있습니다. Sonnet 4.6이 뭔가를 모를 때, 만들어내기보다는 그렇다고 말합니다."

3. 과도한 엔지니어링 감소

"간단한 함수를 요청하면 간단한 함수를 받습니다. 의존성 주입과 추상 인터페이스가 있는 프레임워크가 아닙니다."

벤치마크 맥락

이 선호도 데이터는 벤치마크와 일치합니다:

지표

Sonnet 4.6

Opus 4.5

SWE-bench

79.6%

77.2%

OSWorld

72.5%

61.4%

GDPval-AA

1633 Elo

~1550

가격 함의

선호도 데이터가 Sonnet 4.6을 더욱 매력적으로 만듭니다:

Opus 4.5: 백만 토큰당 $15/$75

Sonnet 4.6: 백만 토큰당 $3/$15

사용자들은 비용의 20%로 더 나은 체감 품질을 얻습니다.

기업 반응

"2분기를 위한 Opus 4.5 배포를 계획하고 있었습니다. 이 결과로 다시 고려하고 있습니다. 사용자들이 덜 좋아하는 것에 왜 5배를 내나요?" — 기업 SaaS 회사 CTO

Opus 4.6은 여전히 역할이 있다

Anthropic은 Opus 4.6(새 플래그십)이 여전히 탁월한 경우가 있다고 언급합니다:

PhD 수준 과학적 추론 (GPQA 91.3% vs 74.1%)

멀티 에이전트 조율

극단적인 장문 컨텍스트 검색 (MRCR에서 76% vs 18%)

하지만 대부분의 애플리케이션에서 Sonnet 4.6이 최적의 선택으로 보입니다.

의미하는 것

AI 업계는 압축을 경험하고 있습니다: 중간 티어 모델이 플래그십 성능에 도달하면서 비용 효율성을 유지합니다. Anthropic의 빠른 반복 전략이 결실을 맺고 있습니다.