속보February 6, 2026
유출된 Claude 5 벤치마크, Claude 4.5 대비 25% 성능 향상 시사
비공식 벤치마크 유출에 따르면 Claude 5가 SWE-bench에서 92%, HumanEval에서 99.1%를 달성하여 AI 코딩 역량에서 새로운 기록을 세울 수 있다고 합니다.
유출된 벤치마크가 보여주는 것
비공식 채널을 통해 유출된 Claude 5 벤치마크 결과가 업계에 큰 파장을 일으키고 있습니다.
유출된 점수
| 벤치마크 | Claude 4.5 Opus | Claude 5 (유출) | 향상 |
| SWE-bench Verified | 80.9% | ~92% | +11.1% |
| HumanEval | 97.3% | ~99.1% | +1.8% |
| MBPP | 96.1% | ~98.9% | +2.8% |
| GPQA Diamond | 65.3% | ~87.4% | +22.1% |
| LiveCodeBench | 78.2% | ~89.1% | +10.9% |
분석
SWE-bench 92%의 의미
- 역대 최고 점수
- 인간 시니어 개발자 수준 초과
- 대부분의 실제 버그를 자율적으로 수정 가능
GPQA Diamond 87.4%
- 대학원 수준 추론에서 22% 포인트 향상
- 가장 큰 상대적 개선
- 범용 추론 능력의 대폭 향상
신뢰도 평가
유출의 신뢰도: 중-상 (70%)- 이전 유출과 일관된 패턴
- 복수의 독립 소스가 유사한 수치 확인
- 하지만 공식 확인 전이므로 주의 필요
경쟁 영향
이 점수가 사실이라면:
- GPT-5.1 대비 20% 이상 우위
- Codex 5.3도 코딩 벤치마크에서 뒤처짐
- AI 코딩 시장의 판도 변화
결론
유출된 벤치마크가 정확하다면, Claude 5는 AI 코딩 역량의 새로운 시대를 열 것입니다. 공식 발표를 기대하며 지켜봐야 합니다.