속보February 6, 2026

유출된 Claude 5 벤치마크, Claude 4.5 대비 25% 성능 향상 시사

비공식 벤치마크 유출에 따르면 Claude 5가 SWE-bench에서 92%, HumanEval에서 99.1%를 달성하여 AI 코딩 역량에서 새로운 기록을 세울 수 있다고 합니다.

유출된 벤치마크가 보여주는 것

비공식 채널을 통해 유출된 Claude 5 벤치마크 결과가 업계에 큰 파장을 일으키고 있습니다.

유출된 점수

벤치마크

Claude 4.5 Opus

Claude 5 (유출)

향상

SWE-bench Verified

80.9%

~92%

+11.1%

HumanEval

97.3%

~99.1%

+1.8%

MBPP

96.1%

~98.9%

+2.8%

GPQA Diamond

65.3%

~87.4%

+22.1%

LiveCodeBench

78.2%

~89.1%

+10.9%

분석

SWE-bench 92%의 의미

역대 최고 점수

인간 시니어 개발자 수준 초과

대부분의 실제 버그를 자율적으로 수정 가능

GPQA Diamond 87.4%

대학원 수준 추론에서 22% 포인트 향상

가장 큰 상대적 개선

범용 추론 능력의 대폭 향상

신뢰도 평가

유출의 신뢰도: 중-상 (70%)

이전 유출과 일관된 패턴

복수의 독립 소스가 유사한 수치 확인

하지만 공식 확인 전이므로 주의 필요

경쟁 영향

이 점수가 사실이라면:

GPT-5.1 대비 20% 이상 우위

Codex 5.3도 코딩 벤치마크에서 뒤처짐

AI 코딩 시장의 판도 변화

결론

유출된 벤치마크가 정확하다면, Claude 5는 AI 코딩 역량의 새로운 시대를 열 것입니다. 공식 발표를 기대하며 지켜봐야 합니다.

Ready to Experience Claude 5?

Back to All News