Claude Sonnet 4.6, 확장 모드 대체하는 적응형 사고 도입
새로운 적응형 사고 엔진은 effort 파라미터를 통해 동적 추론 깊이를 허용하여 요청당 비용과 속도를 최적화합니다.
이진에서 스펙트럼으로: 추론이 유연해지다
Claude Sonnet 4.6이 적응형 사고를 도입하여 이전의 이진 "확장 사고" 모드를 추론 깊이에 대한 세밀한 제어로 대체합니다.
이진 사고의 문제
이전 Claude 모델은 두 가지 모드가 있었습니다:
- 표준: 빠르고 저렴하지만 얕은 추론
- 확장 사고: 느리고 비싸지만 철저
이것은 개발자에게 중간 단계 없이 속도와 품질 중 하나를 선택하도록 강요했습니다. 간단한 쿼리와 복잡한 아키텍처 질문이 확장 사고가 활성화되었을 때 같은 비용이 들었습니다.
effort 파라미터
적응형 사고는 4가지 수준의 `effort` 파라미터를 도입합니다:
| 수준 | 사고 토큰 | 지연 | 비용 | 사용 사례 |
| low | ~100~500 | ~1초 | 1x | 간단한 Q&A, 서식 |
| medium | ~500~2000 | ~2~3초 | 1.5~2x | 표준 코딩 작업 |
| high | ~2000~10000 | ~5~15초 | 3~5x | 복잡한 문제 |
| auto | 가변 | 가변 | 1~5x | 일반 애플리케이션 |
구현
python
# 간단한 작업 - 최소 사고
response = client.messages.create(
model="claude-sonnet-4-6-20260217",
thinking={"type": "enabled", "effort": "low"},
messages=[...]
)
# 복잡한 작업 - 깊은 추론
response = client.messages.create(
model="claude-sonnet-4-6-20260217",
thinking={"type": "enabled", "effort": "high"},
messages=[...]
)
# 모델이 결정하도록
response = client.messages.create(
model="claude-sonnet-4-6-20260217",
thinking={"type": "enabled", "effort": "auto"},
messages=[...]
)
비용 절감
얼리 어답터들이 상당한 절감을 보고합니다:
"모든 것을 최대 사고로 실행하고 있었습니다. 이제 간단한 쿼리는 'low' effort를 사용합니다—일상적인 작업에서 품질 영향 없이 비용이 40% 떨어졌습니다." — FinTech 스타트업 수석 개발자
자동 모드 성능
`auto`로 설정하면 Claude가 동적으로 쿼리 복잡도를 평가하고 추론 리소스를 배분합니다. 테스트 결과:
- 70%의 쿼리가 낮음/중간 effort로 분류
- 자동이 일반적으로 인간이 선택한 effort 수준과 일치
- 엣지 케이스에서 가끔 복잡도 과소평가
사고 내용 접근
개발자가 추론 과정을 검사할 수 있습니다:
python
for block in response.content:
if block.type == "thinking":
print(f"추론: {block.thinking}")
모범 사례
일반 애플리케이션에는 `auto`로 시작하고, 워크로드 패턴을 이해하면 명시적 effort 수준으로 최적화하세요.
마이그레이션
`budget_tokens` 파라미터는 여전히 작동하지만 더 이상 사용되지 않습니다. 새 코드는 `effort`를 대신 사용해야 합니다.