Codex 5.3 veröffentlicht: 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro
OpenAI veröffentlicht GPT-5.3-Codex am 5. Februar 2026 – das bisher leistungsfähigste agentische Coding-Modell mit Rekordwerten bei Terminal- und Coding-Benchmarks.
OpenAI bringt das leistungsfähigste Coding-Modell auf den Markt
Am 5. Februar 2026 veröffentlichte OpenAI GPT-5.3-Codex und bezeichnete es als „das bisher leistungsfähigste agentische Coding-Modell". Das Modell verbessert sowohl die Coding-Spitzenleistung als auch die allgemeinen Reasoning-Fähigkeiten und ist dabei 25 % schneller als sein Vorgänger.
Benchmark-Ergebnisse
Terminal-Bench 2.0: 77,3 % – Führend bei allen Modellen in terminalgesteuerten Aufgaben SWE-Bench Pro (Public): 56,8 % Genauigkeit über vier Programmiersprachen OSWorld-Verified: 64,7 % – Starke Computer-Use-Fähigkeiten Geschwindigkeit: 25 % schneller als GPT-5.2-Codex mit verbesserter Token-EffizienzTechnische Innovationen
Selbst-Bootstrapping-Entwicklung
Bemerkenswert ist, dass GPT-5.3-Codex maßgeblich an seiner eigenen Entstehung beteiligt war. Das Codex-Team nutzte frühe Versionen, um:
- Den eigenen Trainingsprozess zu debuggen
- Die Deployment-Infrastruktur zu verwalten
- Testergebnisse zu diagnostizieren und zu beheben
- Die Inferenz-Performance zu optimieren
Erweiterte Fähigkeiten
Agentisches Coding: Autonome mehrstufige Aufgabenausführung mit minimalem menschlichem Eingriff Terminal-Beherrschung: Kommandozeilen-Kompetenz auf nativem Niveau, die alle bisherigen Modelle übertrifft Multi-Language-Unterstützung: Produktionsreife Code-Generierung in Python, JavaScript, TypeScript, Java, C++, Go und Rust Token-Effizienz: Verwendet weniger Output-Tokens bei gleichbleibender Qualität – senkt API-KostenSicherheit & Safety
GPT-5.3-Codex ist das erste OpenAI-Modell, das im Preparedness Framework als „High" eingestuft wird, insbesondere im Bereich Cybersecurity. Erweiterte Schutzmaßnahmen verhindern die Generierung von Schadcode, während die Funktionalität für legitime Sicherheitsforschung erhalten bleibt.
Verfügbarkeit & Preise
ChatGPT-Nutzer: Sofort verfügbar mit ChatGPT Plus-, Team- und Enterprise-Plänen API-Zugang: $10/$30 pro Million Tokens (Input/Output) Plattform-Integration: ChatGPT-App, CLI, IDE-Erweiterungen und Web-Interface Cloud-Anbieter: AWS Bedrock und Azure OpenAI Service (Q1 2026)Leistungsvergleich
| Modell | Terminal-Bench | SWE-Bench Pro | Geschwindigkeit | Preis (Input) |
| Codex 5.3 | 77,3 % | 56,8 % | 1,8s | $10/M |
| Claude Opus 4.6 | 68,4 % | 54,2 % | 3,2s | $15/M |
| Gemini 3 Pro | 64,1 % | 48,3 % | 2,4s | $7/M |
Reaktionen der Entwickler
Frühe Anwender berichten, dass Codex 5.3 besonders stark ist bei:
- Backend-Service-Entwicklung
- Terminal-Automatisierung und DevOps-Aufgaben
- Code-Generierung in hohen Stückzahlen
- Fehlerbehebung mit schneller Iteration
Einige Entwickler merken an, dass Claude Code weiterhin führend ist bei:
- Tiefgehendem architektonischem Reasoning
- Verständnis großer Codebasen mit langem Kontext
- UI/UX-Designvorschlägen
Codex 5.3 verwenden, wenn...
- Geschwindigkeit entscheidend für Ihren Workflow ist
- Sie hauptsächlich mit Terminal-/CLI-Tools arbeiten
- Sie kosteneffiziente Generierung in großen Mengen benötigen
- Sie Backend-Services und APIs entwickeln
- Sie zuverlässigen, fehlerfreien Code beim ersten Versuch brauchen
Fazit
GPT-5.3-Codex stellt einen bedeutenden Sprung in der KI-Coding-Fähigkeit dar, insbesondere für terminalgesteuerte und autonome Agent-Workflows. Die Kombination aus Leistung, Geschwindigkeit und wettbewerbsfähiger Preisgestaltung macht es zu einer überzeugenden Wahl für Entwicklungsteams.
Die Fähigkeit des Modells, sich selbst mitzuentwickeln, zeigt, dass wir in eine Ära eintreten, in der KI-Systeme aktiv an ihrer eigenen Entwicklung mitwirken – ein Paradigmenwechsel mit tiefgreifenden Auswirkungen.