Claude 5 Erreicht 85% auf SWE-bench: Neuer KI-Coding-Benchmark-Rekord

Claude 5 setzt neuen SWE-bench-Rekord mit 85,3 %

Anthropic hat bekannt gegeben, dass Claude 5 auf dem SWE-bench Verified-Benchmark einen Wert von 85,3 % erreicht hat - ein neuer Weltrekord fuer KI-Coding-Leistung.

Was ist SWE-bench?

SWE-bench Verified ist der Goldstandard fuer die Bewertung der Coding-Faehigkeiten von KI-Modellen. Es umfasst 500 reale GitHub-Issues aus Open-Source-Python-Projekten, die das Modell autonom loesen muss - von der Analyse des Codes bis zum Schreiben eines korrekten Fixes.

Vergleich mit anderen Modellen

Modell

SWE-bench Verified

Datum

Claude 5

85,3 %

Februar 2026

Claude Sonnet 4.6

79,6 %

Februar 2026

GPT-5.2

ca. 76 %

Januar 2026

Gemini Ultra 2.0

ca. 71 %

Dezember 2025

Claude Opus 4.6

72,5 %

Januar 2026

Claude 5 uebertrifft den naechsten Konkurrenten um mehr als 5,7 Prozentpunkte.

Was treibt die Verbesserung an?

Anthropic nennt drei Hauptfaktoren:

1. Erweitertes kontextuelles Reasoning

Claude 5 kann nun grosse Codebasen mit bis zu 500.000 Token Kontext analysieren und komplexe Abhaengigkeiten ueber viele Dateien hinweg verstehen.

2. Verbesserte Fehlerdiagnose

Ein neues internes Debugging-System erlaubt es Claude 5, hypothetische Korrekturen zu testen und deren Konsequenzen zu evaluieren, bevor eine finale Antwort generiert wird.

3. Multi-Step-Reasoning

Claude 5 kann Probleme in mehrere logische Teilschritte zerlegen und jeden Schritt separat validieren - aehnlich wie ein erfahrener Entwickler bei einem komplexen Bug vorgeht.

Reaktionen aus der Entwickler-Community

Entwickler auf Hacker News und Reddit reagierten begeistert:

"85 % ist beeindruckend. Das bedeutet, dass Claude 5 5 von 6 realen GitHub-Issues korrekt loest."

"Wir haben Claude 5 intern getestet. Die Verbesserung bei Legacy-Code ist spuerbar."

"Die Kombination aus 500K Kontext und 85 % SWE-bench macht Claude 5 zur ersten Wahl fuer grosse Codebasis-Arbeit."

Was bedeutet das fuer Entwickler?

Mit einem SWE-bench-Score von 85,3 % kann Claude 5:

Die Mehrheit einfacher bis mittlerer Bugs autonom loesen

Komplexe Multi-Datei-Refactorings planen und umsetzen

Sicherheitsluecken in grossem Massstab identifizieren

Als echter autonomer Entwickler in CI/CD-Pipelines eingesetzt werden

Fazit

Der SWE-bench-85,3-%-Rekord ist kein reines Benchmark-Ergebnis - er repraesentiert einen qualitativen Sprung in der praktischen Nutzbarkeit von KI fuer Software-Entwicklung. Claude 5 ist das erste Modell, das in einem bedeutenden Prozentsatz realer Entwicklungsaufgaben zuverlassig autonom arbeiten kann.