EilmeldungFebruary 10, 2026

Codex 5.3 veröffentlicht: 77,3 % Terminal-Bench, 56,8 % SWE-Bench Pro

OpenAI veröffentlicht GPT-5.3-Codex am 5. Februar 2026 – das bisher leistungsfähigste agentische Coding-Modell mit Rekordwerten bei Terminal- und Coding-Benchmarks.

OpenAI bringt das leistungsfähigste Coding-Modell auf den Markt

Am 5. Februar 2026 veröffentlichte OpenAI GPT-5.3-Codex und bezeichnete es als „das bisher leistungsfähigste agentische Coding-Modell". Das Modell verbessert sowohl die Coding-Spitzenleistung als auch die allgemeinen Reasoning-Fähigkeiten und ist dabei 25 % schneller als sein Vorgänger.

Benchmark-Ergebnisse

Terminal-Bench 2.0: 77,3 % – Führend bei allen Modellen in terminalgesteuerten Aufgaben SWE-Bench Pro (Public): 56,8 % Genauigkeit über vier Programmiersprachen OSWorld-Verified: 64,7 % – Starke Computer-Use-Fähigkeiten Geschwindigkeit: 25 % schneller als GPT-5.2-Codex mit verbesserter Token-Effizienz

Technische Innovationen

Selbst-Bootstrapping-Entwicklung

Bemerkenswert ist, dass GPT-5.3-Codex maßgeblich an seiner eigenen Entstehung beteiligt war. Das Codex-Team nutzte frühe Versionen, um:

  • Den eigenen Trainingsprozess zu debuggen
  • Die Deployment-Infrastruktur zu verwalten
  • Testergebnisse zu diagnostizieren und zu beheben
  • Die Inferenz-Performance zu optimieren

Erweiterte Fähigkeiten

Agentisches Coding: Autonome mehrstufige Aufgabenausführung mit minimalem menschlichem Eingriff Terminal-Beherrschung: Kommandozeilen-Kompetenz auf nativem Niveau, die alle bisherigen Modelle übertrifft Multi-Language-Unterstützung: Produktionsreife Code-Generierung in Python, JavaScript, TypeScript, Java, C++, Go und Rust Token-Effizienz: Verwendet weniger Output-Tokens bei gleichbleibender Qualität – senkt API-Kosten

Sicherheit & Safety

GPT-5.3-Codex ist das erste OpenAI-Modell, das im Preparedness Framework als „High" eingestuft wird, insbesondere im Bereich Cybersecurity. Erweiterte Schutzmaßnahmen verhindern die Generierung von Schadcode, während die Funktionalität für legitime Sicherheitsforschung erhalten bleibt.

Verfügbarkeit & Preise

ChatGPT-Nutzer: Sofort verfügbar mit ChatGPT Plus-, Team- und Enterprise-Plänen API-Zugang: $10/$30 pro Million Tokens (Input/Output) Plattform-Integration: ChatGPT-App, CLI, IDE-Erweiterungen und Web-Interface Cloud-Anbieter: AWS Bedrock und Azure OpenAI Service (Q1 2026)

Leistungsvergleich

ModellTerminal-BenchSWE-Bench ProGeschwindigkeitPreis (Input)
Codex 5.377,3 %56,8 %1,8s$10/M
Claude Opus 4.668,4 %54,2 %3,2s$15/M
Gemini 3 Pro64,1 %48,3 %2,4s$7/M

Reaktionen der Entwickler

Frühe Anwender berichten, dass Codex 5.3 besonders stark ist bei:

  • Backend-Service-Entwicklung
  • Terminal-Automatisierung und DevOps-Aufgaben
  • Code-Generierung in hohen Stückzahlen
  • Fehlerbehebung mit schneller Iteration

Einige Entwickler merken an, dass Claude Code weiterhin führend ist bei:

  • Tiefgehendem architektonischem Reasoning
  • Verständnis großer Codebasen mit langem Kontext
  • UI/UX-Designvorschlägen

Codex 5.3 verwenden, wenn...

  • Geschwindigkeit entscheidend für Ihren Workflow ist
  • Sie hauptsächlich mit Terminal-/CLI-Tools arbeiten
  • Sie kosteneffiziente Generierung in großen Mengen benötigen
  • Sie Backend-Services und APIs entwickeln
  • Sie zuverlässigen, fehlerfreien Code beim ersten Versuch brauchen

Fazit

GPT-5.3-Codex stellt einen bedeutenden Sprung in der KI-Coding-Fähigkeit dar, insbesondere für terminalgesteuerte und autonome Agent-Workflows. Die Kombination aus Leistung, Geschwindigkeit und wettbewerbsfähiger Preisgestaltung macht es zu einer überzeugenden Wahl für Entwicklungsteams.

Die Fähigkeit des Modells, sich selbst mitzuentwickeln, zeigt, dass wir in eine Ära eintreten, in der KI-Systeme aktiv an ihrer eigenen Entwicklung mitwirken – ein Paradigmenwechsel mit tiefgreifenden Auswirkungen.

Ready to Experience Claude 5?

Try Now