속보February 10, 2026
Codex 5.3 출시: Terminal-Bench 77.3%, SWE-Bench Pro 56.8%
OpenAI가 2026년 2월 5일 GPT-5.3-Codex를 출시했습니다. 터미널 및 코딩 벤치마크에서 획기적인 성능을 발휘하는 현재까지 가장 뛰어난 에이전틱 코딩 모델입니다.
OpenAI, 가장 강력한 코딩 모델 출시
2026년 2월 5일, OpenAI는 GPT-5.3-Codex를 출시하며 "현재까지 가장 뛰어난 에이전틱 코딩 모델"이라고 설명했습니다. 이 모델은 프론티어 코딩 성능과 범용 추론 능력을 동시에 향상시키면서 이전 모델보다 25% 빠른 속도를 달성했습니다.
벤치마크 성능
Terminal-Bench 2.0: 77.3% - 터미널 기반 작업에서 모든 모델 중 선두 SWE-Bench Pro (Public): 4개 프로그래밍 언어에서 56.8% 정확도 OSWorld-Verified: 64.7% - 강력한 컴퓨터 사용 능력 속도: GPT-5.2-Codex 대비 25% 빠르며 향상된 토큰 효율성기술적 혁신
셀프 부트스트래핑 개발
놀랍게도 GPT-5.3-Codex는 자체 개발에 핵심적인 역할을 했습니다. Codex 팀은 초기 버전을 다음과 같이 활용했습니다:
- 자체 학습 프로세스 디버깅
- 배포 인프라 관리
- 테스트 결과 진단 및 수정
- 추론 성능 최적화
향상된 기능
에이전틱 코딩: 최소한의 인간 개입으로 자율적인 다단계 작업 수행 터미널 마스터리: 이전 모델을 능가하는 네이티브 수준의 커맨드 라인 숙련도 다중 언어 지원: Python, JavaScript, TypeScript, Java, C++, Go, Rust에서 프로덕션급 코드 생성 토큰 효율성: 품질을 유지하면서 더 적은 출력 토큰 사용 - API 비용 절감보안 및 안전
GPT-5.3-Codex는 Preparedness Framework에서 특히 사이버 보안 역량 부문에서 "High"로 분류된 첫 번째 OpenAI 모델입니다. 향상된 안전장치가 악성 코드 생성을 방지하면서 합법적인 보안 연구 기능은 유지합니다.
가용성 및 가격
ChatGPT 사용자: ChatGPT Plus, Team, Enterprise 플랜에서 지금 사용 가능 API 접근: 백만 토큰당 $10/$30 (입력/출력) 플랫폼 통합: ChatGPT 앱, CLI, IDE 확장, 웹 인터페이스 클라우드 제공업체: AWS Bedrock 및 Azure OpenAI Service (2026년 1분기)성능 비교
| 모델 | Terminal-Bench | SWE-Bench Pro | 속도 | 가격 (입력) |
| Codex 5.3 | 77.3% | 56.8% | 1.8s | $10/M |
| Claude Opus 4.6 | 68.4% | 54.2% | 3.2s | $15/M |
| Gemini 3 Pro | 64.1% | 48.3% | 2.4s | $7/M |
개발자 반응
얼리 어답터들은 Codex 5.3이 다음 분야에서 뛰어나다고 보고합니다:
- 백엔드 서비스 개발
- 터미널 자동화 및 DevOps 작업
- 대량 코드 생성
- 빠른 반복을 통한 버그 수정
일부 개발자는 Claude Code가 여전히 다음 분야에서 앞서고 있다고 언급합니다:
- 깊은 아키텍처 추론
- 장문 컨텍스트 코드베이스 이해
- UI/UX 디자인 제안
Codex 5.3을 선택해야 할 때
- 워크플로우에서 속도가 중요한 경우
- 주로 터미널/CLI 도구를 사용하는 경우
- 비용 효율적인 대량 생성이 필요한 경우
- 백엔드 서비스 및 API를 구축하는 경우
- 첫 시도에서 신뢰할 수 있는 버그 없는 코드가 필요한 경우
결론
GPT-5.3-Codex는 AI 코딩 능력에서 상당한 도약을 나타내며, 특히 터미널 기반 및 자율 에이전트 워크플로우에서 두드러집니다. 성능, 속도, 경쟁력 있는 가격의 조합은 개발 팀에게 매력적인 선택지가 됩니다.
모델이 자체 구축을 돕는 능력은 AI 시스템이 자체 개발에 적극적으로 참여하는 시대에 접어들고 있음을 보여줍니다 - 심오한 의미를 가진 패러다임 전환입니다.