Claude 5 Erreicht 85% auf SWE-bench: Neuer KI-Coding-Benchmark-Rekord
Anthropics Claude 5 setzt mit 85,3% auf SWE-bench Verified einen neuen Rekord und uebertrifft alle bisherigen KI-Modelle.
Claude 5 setzt neuen SWE-bench-Rekord mit 85,3 %
Anthropic hat bekannt gegeben, dass Claude 5 auf dem SWE-bench Verified-Benchmark einen Wert von 85,3 % erreicht hat - ein neuer Weltrekord fuer KI-Coding-Leistung.
Was ist SWE-bench?
SWE-bench Verified ist der Goldstandard fuer die Bewertung der Coding-Faehigkeiten von KI-Modellen. Es umfasst 500 reale GitHub-Issues aus Open-Source-Python-Projekten, die das Modell autonom loesen muss - von der Analyse des Codes bis zum Schreiben eines korrekten Fixes.
Vergleich mit anderen Modellen
| Modell | SWE-bench Verified | Datum |
| Claude 5 | 85,3 % | Februar 2026 |
| Claude Sonnet 4.6 | 79,6 % | Februar 2026 |
| GPT-5.2 | ca. 76 % | Januar 2026 |
| Gemini Ultra 2.0 | ca. 71 % | Dezember 2025 |
| Claude Opus 4.6 | 72,5 % | Januar 2026 |
Claude 5 uebertrifft den naechsten Konkurrenten um mehr als 5,7 Prozentpunkte.
Was treibt die Verbesserung an?
Anthropic nennt drei Hauptfaktoren:
1. Erweitertes kontextuelles ReasoningClaude 5 kann nun grosse Codebasen mit bis zu 500.000 Token Kontext analysieren und komplexe Abhaengigkeiten ueber viele Dateien hinweg verstehen.
2. Verbesserte FehlerdiagnoseEin neues internes Debugging-System erlaubt es Claude 5, hypothetische Korrekturen zu testen und deren Konsequenzen zu evaluieren, bevor eine finale Antwort generiert wird.
3. Multi-Step-ReasoningClaude 5 kann Probleme in mehrere logische Teilschritte zerlegen und jeden Schritt separat validieren - aehnlich wie ein erfahrener Entwickler bei einem komplexen Bug vorgeht.
Reaktionen aus der Entwickler-Community
Entwickler auf Hacker News und Reddit reagierten begeistert:
- "85 % ist beeindruckend. Das bedeutet, dass Claude 5 5 von 6 realen GitHub-Issues korrekt loest."
- "Wir haben Claude 5 intern getestet. Die Verbesserung bei Legacy-Code ist spuerbar."
- "Die Kombination aus 500K Kontext und 85 % SWE-bench macht Claude 5 zur ersten Wahl fuer grosse Codebasis-Arbeit."
Was bedeutet das fuer Entwickler?
Mit einem SWE-bench-Score von 85,3 % kann Claude 5:
- Die Mehrheit einfacher bis mittlerer Bugs autonom loesen
- Komplexe Multi-Datei-Refactorings planen und umsetzen
- Sicherheitsluecken in grossem Massstab identifizieren
- Als echter autonomer Entwickler in CI/CD-Pipelines eingesetzt werden
Fazit
Der SWE-bench-85,3-%-Rekord ist kein reines Benchmark-Ergebnis - er repraesentiert einen qualitativen Sprung in der praktischen Nutzbarkeit von KI fuer Software-Entwicklung. Claude 5 ist das erste Modell, das in einem bedeutenden Prozentsatz realer Entwicklungsaufgaben zuverlassig autonom arbeiten kann.