Claude Sonnet 4.6, OSWorld 72.5% 달성, Opus 컴퓨터 사용과 동급
Sonnet 4.6이 컴퓨터 사용 벤치마크에서 Opus 4.6과 동등하여 중간 티어 가격으로 정교한 데스크톱 자동화를 가능하게 합니다.
컴퓨터 사용의 대중화
Claude Sonnet 4.6의 OSWorld-Verified 72.5% 점수가 Opus 4.6의 72.7%와 사실상 동등합니다—중간 티어 가격으로 정교한 데스크톱 자동화를 가능하게 합니다.
OSWorld란?
OSWorld는 AI 모델을 실제 컴퓨터 작업으로 테스트합니다:
- 웹 브라우징 및 양식 작성
- 데스크톱 애플리케이션 사용
- 파일 관리
- 다단계 워크플로우
- 크로스 애플리케이션 작업
성능 비교
| 모델 | OSWorld-Verified | 가격 |
| Opus 4.6 | 72.7% | $15/$75 |
| Sonnet 4.6 | 72.5% | $3/$15 |
| Sonnet 4.5 | 61.4% | $3/$15 |
| GPT-5.2 | ~65% | $1.75/$14 |
Sonnet 4.6은 Sonnet 4.5에서 11포인트 이상 향상되어 Opus 동등 수준에 도달했습니다.
실용적인 기능
Sonnet 4.6은 이제 안정적으로:
웹 자동화
- 유효성 검사가 있는 복잡한 양식 작성
- 다단계 결제 흐름 탐색
- 동적 웹사이트에서 데이터 추출
데스크톱 작업
- 스프레드시트 조작
- 애플리케이션 간 문서 처리
- 파일 시스템 관리
기업 워크플로우
- 경비 보고서 제출
- 데이터 입력 자동화
- 테스트 및 QA 시나리오
기업 관심
RPA 벤더들이 주목하고 있습니다:
"자동화 플랫폼을 위해 Sonnet 4.6을 평가 중입니다. 이 성능 수준과 가격 포인트에서 AI 우선 RPA가 중소기업에게 실용적이 됩니다." — 자동화 스타트업 VP Product
구현 예시
python
# Sonnet 4.6을 사용한 간단한 양식 자동화
response = client.messages.create(
model="claude-sonnet-4-6-20260217",
max_tokens=4096,
tools=[{"type": "computer_20241022", "name": "computer", ...}],
messages=[{
"role": "user",
"content": [
{"type": "image", "source": screenshot},
{"type": "text", "text": "이 경비 양식을 작성하세요: 날짜 2/17, 금액 $145.50, 카테고리: 교통"}
]
}]
)
안전 고려 사항
Anthropic은 컴퓨터 사용 시 안전을 강조합니다:
- 샌드박스 실행 권장
- 민감한 작업에 인간 승인
- 규정 준수를 위한 감사 로깅
- 에이전트 폭주 방지를 위한 속도 제한
가격 영향
일반적인 기업 컴퓨터 사용 배포:
- Opus 4.6: 2만 개 작업에 월 ~$1,500
- Sonnet 4.6: 동일 작업에 월 ~$300
동등한 성능으로 80% 비용 절감.
다음 단계
컴퓨터 사용이 성숙해짐에 따라 예상되는 것:
- 기업 RPA 플랫폼과의 통합
- 규제 산업을 위한 규정 준수 인증
- 더 정교한 다단계 오케스트레이션
- 동적/애니메이션 UI 처리 개선
결론
Sonnet 4.6은 AI 기반 컴퓨터 자동화의 비용 장벽을 제거했습니다. 6개월 전에는 프리미엄 기능이었던 것이 이제 표준 티어입니다.