EilmeldungFebruary 24, 2026

Claude 5 Erreicht 85% auf SWE-bench: Neuer KI-Coding-Benchmark-Rekord

Anthropics Claude 5 setzt mit 85,3% auf SWE-bench Verified einen neuen Rekord und uebertrifft alle bisherigen KI-Modelle.

Claude 5 setzt neuen SWE-bench-Rekord mit 85,3 %

Anthropic hat bekannt gegeben, dass Claude 5 auf dem SWE-bench Verified-Benchmark einen Wert von 85,3 % erreicht hat - ein neuer Weltrekord fuer KI-Coding-Leistung.

Was ist SWE-bench?

SWE-bench Verified ist der Goldstandard fuer die Bewertung der Coding-Faehigkeiten von KI-Modellen. Es umfasst 500 reale GitHub-Issues aus Open-Source-Python-Projekten, die das Modell autonom loesen muss - von der Analyse des Codes bis zum Schreiben eines korrekten Fixes.

Vergleich mit anderen Modellen

ModellSWE-bench VerifiedDatum
Claude 585,3 %Februar 2026
Claude Sonnet 4.679,6 %Februar 2026
GPT-5.2ca. 76 %Januar 2026
Gemini Ultra 2.0ca. 71 %Dezember 2025
Claude Opus 4.672,5 %Januar 2026

Claude 5 uebertrifft den naechsten Konkurrenten um mehr als 5,7 Prozentpunkte.

Was treibt die Verbesserung an?

Anthropic nennt drei Hauptfaktoren:

1. Erweitertes kontextuelles Reasoning

Claude 5 kann nun grosse Codebasen mit bis zu 500.000 Token Kontext analysieren und komplexe Abhaengigkeiten ueber viele Dateien hinweg verstehen.

2. Verbesserte Fehlerdiagnose

Ein neues internes Debugging-System erlaubt es Claude 5, hypothetische Korrekturen zu testen und deren Konsequenzen zu evaluieren, bevor eine finale Antwort generiert wird.

3. Multi-Step-Reasoning

Claude 5 kann Probleme in mehrere logische Teilschritte zerlegen und jeden Schritt separat validieren - aehnlich wie ein erfahrener Entwickler bei einem komplexen Bug vorgeht.

Reaktionen aus der Entwickler-Community

Entwickler auf Hacker News und Reddit reagierten begeistert:

  • "85 % ist beeindruckend. Das bedeutet, dass Claude 5 5 von 6 realen GitHub-Issues korrekt loest."
  • "Wir haben Claude 5 intern getestet. Die Verbesserung bei Legacy-Code ist spuerbar."
  • "Die Kombination aus 500K Kontext und 85 % SWE-bench macht Claude 5 zur ersten Wahl fuer grosse Codebasis-Arbeit."

Was bedeutet das fuer Entwickler?

Mit einem SWE-bench-Score von 85,3 % kann Claude 5:

  • Die Mehrheit einfacher bis mittlerer Bugs autonom loesen
  • Komplexe Multi-Datei-Refactorings planen und umsetzen
  • Sicherheitsluecken in grossem Massstab identifizieren
  • Als echter autonomer Entwickler in CI/CD-Pipelines eingesetzt werden

Fazit

Der SWE-bench-85,3-%-Rekord ist kein reines Benchmark-Ergebnis - er repraesentiert einen qualitativen Sprung in der praktischen Nutzbarkeit von KI fuer Software-Entwicklung. Claude 5 ist das erste Modell, das in einem bedeutenden Prozentsatz realer Entwicklungsaufgaben zuverlassig autonom arbeiten kann.

Ready to Experience Claude 5?

Try Now