Codex 5.3 veröffentlicht: 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro

OpenAI bringt das leistungsfähigste Coding-Modell auf den Markt

Am 5. Februar 2026 veröffentlichte OpenAI GPT-5.3-Codex und bezeichnete es als „das bisher leistungsfähigste agentische Coding-Modell". Das Modell verbessert sowohl die Coding-Spitzenleistung als auch die allgemeinen Reasoning-Fähigkeiten und ist dabei 25 % schneller als sein Vorgänger.

Benchmark-Ergebnisse

Terminal-Bench 2.0: 77,3 % – Führend bei allen Modellen in terminalgesteuerten Aufgaben SWE-Bench Pro (Public): 56,8 % Genauigkeit über vier Programmiersprachen OSWorld-Verified: 64,7 % – Starke Computer-Use-Fähigkeiten Geschwindigkeit: 25 % schneller als GPT-5.2-Codex mit verbesserter Token-Effizienz

Technische Innovationen

Selbst-Bootstrapping-Entwicklung

Bemerkenswert ist, dass GPT-5.3-Codex maßgeblich an seiner eigenen Entstehung beteiligt war. Das Codex-Team nutzte frühe Versionen, um:

Den eigenen Trainingsprozess zu debuggen

Die Deployment-Infrastruktur zu verwalten

Testergebnisse zu diagnostizieren und zu beheben

Die Inferenz-Performance zu optimieren

Erweiterte Fähigkeiten

Agentisches Coding: Autonome mehrstufige Aufgabenausführung mit minimalem menschlichem Eingriff Terminal-Beherrschung: Kommandozeilen-Kompetenz auf nativem Niveau, die alle bisherigen Modelle übertrifft Multi-Language-Unterstützung: Produktionsreife Code-Generierung in Python, JavaScript, TypeScript, Java, C++, Go und Rust Token-Effizienz: Verwendet weniger Output-Tokens bei gleichbleibender Qualität – senkt API-Kosten

Sicherheit & Safety

GPT-5.3-Codex ist das erste OpenAI-Modell, das im Preparedness Framework als „High" eingestuft wird, insbesondere im Bereich Cybersecurity. Erweiterte Schutzmaßnahmen verhindern die Generierung von Schadcode, während die Funktionalität für legitime Sicherheitsforschung erhalten bleibt.

Verfügbarkeit & Preise

ChatGPT-Nutzer: Sofort verfügbar mit ChatGPT Plus-, Team- und Enterprise-Plänen API-Zugang: $10/$30 pro Million Tokens (Input/Output) Plattform-Integration: ChatGPT-App, CLI, IDE-Erweiterungen und Web-Interface Cloud-Anbieter: AWS Bedrock und Azure OpenAI Service (Q1 2026)

Leistungsvergleich

Modell

Terminal-Bench

SWE-Bench Pro

Geschwindigkeit

Preis (Input)

Codex 5.3

77,3 %

56,8 %

1,8s

$10/M

Claude Opus 4.6

68,4 %

54,2 %

3,2s

$15/M

Gemini 3 Pro

64,1 %

48,3 %

2,4s

$7/M

Reaktionen der Entwickler

Frühe Anwender berichten, dass Codex 5.3 besonders stark ist bei:

Backend-Service-Entwicklung

Terminal-Automatisierung und DevOps-Aufgaben

Code-Generierung in hohen Stückzahlen

Fehlerbehebung mit schneller Iteration

Einige Entwickler merken an, dass Claude Code weiterhin führend ist bei:

Tiefgehendem architektonischem Reasoning

Verständnis großer Codebasen mit langem Kontext

UI/UX-Designvorschlägen

Codex 5.3 verwenden, wenn...

Geschwindigkeit entscheidend für Ihren Workflow ist

Sie hauptsächlich mit Terminal-/CLI-Tools arbeiten

Sie kosteneffiziente Generierung in großen Mengen benötigen

Sie Backend-Services und APIs entwickeln

Sie zuverlässigen, fehlerfreien Code beim ersten Versuch brauchen

Fazit

GPT-5.3-Codex stellt einen bedeutenden Sprung in der KI-Coding-Fähigkeit dar, insbesondere für terminalgesteuerte und autonome Agent-Workflows. Die Kombination aus Leistung, Geschwindigkeit und wettbewerbsfähiger Preisgestaltung macht es zu einer überzeugenden Wahl für Entwicklungsteams.

Die Fähigkeit des Modells, sich selbst mitzuentwickeln, zeigt, dass wir in eine Ära eintreten, in der KI-Systeme aktiv an ihrer eigenen Entwicklung mitwirken – ein Paradigmenwechsel mit tiefgreifenden Auswirkungen.