벤치마크February 17, 2026

Claude Sonnet 4.6, OSWorld 72.5% 달성, Opus 컴퓨터 사용과 동급

Sonnet 4.6이 컴퓨터 사용 벤치마크에서 Opus 4.6과 동등하여 중간 티어 가격으로 정교한 데스크톱 자동화를 가능하게 합니다.

컴퓨터 사용의 대중화

Claude Sonnet 4.6의 OSWorld-Verified 72.5% 점수가 Opus 4.6의 72.7%와 사실상 동등합니다—중간 티어 가격으로 정교한 데스크톱 자동화를 가능하게 합니다.

OSWorld란?

OSWorld는 AI 모델을 실제 컴퓨터 작업으로 테스트합니다:

  • 웹 브라우징 및 양식 작성
  • 데스크톱 애플리케이션 사용
  • 파일 관리
  • 다단계 워크플로우
  • 크로스 애플리케이션 작업

성능 비교

모델OSWorld-Verified가격
Opus 4.672.7%$15/$75
Sonnet 4.672.5%$3/$15
Sonnet 4.561.4%$3/$15
GPT-5.2~65%$1.75/$14

Sonnet 4.6은 Sonnet 4.5에서 11포인트 이상 향상되어 Opus 동등 수준에 도달했습니다.

실용적인 기능

Sonnet 4.6은 이제 안정적으로:

웹 자동화

  • 유효성 검사가 있는 복잡한 양식 작성
  • 다단계 결제 흐름 탐색
  • 동적 웹사이트에서 데이터 추출

데스크톱 작업

  • 스프레드시트 조작
  • 애플리케이션 간 문서 처리
  • 파일 시스템 관리

기업 워크플로우

  • 경비 보고서 제출
  • 데이터 입력 자동화
  • 테스트 및 QA 시나리오

기업 관심

RPA 벤더들이 주목하고 있습니다:

"자동화 플랫폼을 위해 Sonnet 4.6을 평가 중입니다. 이 성능 수준과 가격 포인트에서 AI 우선 RPA가 중소기업에게 실용적이 됩니다." — 자동화 스타트업 VP Product

구현 예시

python

# Sonnet 4.6을 사용한 간단한 양식 자동화

response = client.messages.create(

model="claude-sonnet-4-6-20260217",

max_tokens=4096,

tools=[{"type": "computer_20241022", "name": "computer", ...}],

messages=[{

"role": "user",

"content": [

{"type": "image", "source": screenshot},

{"type": "text", "text": "이 경비 양식을 작성하세요: 날짜 2/17, 금액 $145.50, 카테고리: 교통"}

]

}]

)



안전 고려 사항

Anthropic은 컴퓨터 사용 시 안전을 강조합니다:

  • 샌드박스 실행 권장
  • 민감한 작업에 인간 승인
  • 규정 준수를 위한 감사 로깅
  • 에이전트 폭주 방지를 위한 속도 제한

가격 영향

일반적인 기업 컴퓨터 사용 배포:

  • Opus 4.6: 2만 개 작업에 월 ~$1,500
  • Sonnet 4.6: 동일 작업에 월 ~$300

동등한 성능으로 80% 비용 절감.

다음 단계

컴퓨터 사용이 성숙해짐에 따라 예상되는 것:

  • 기업 RPA 플랫폼과의 통합
  • 규제 산업을 위한 규정 준수 인증
  • 더 정교한 다단계 오케스트레이션
  • 동적/애니메이션 UI 처리 개선

결론

Sonnet 4.6은 AI 기반 컴퓨터 자동화의 비용 장벽을 제거했습니다. 6개월 전에는 프리미엄 기능이었던 것이 이제 표준 티어입니다.

Ready to Experience Claude 5?

Try Now