EilmeldungFebruary 6, 2026
Claude 5 Benchmark-Leaks deuten auf massiven Leistungssprung hin
Durchgesickerte Benchmark-Ergebnisse deuten darauf hin, dass Claude 5 einen erheblichen Leistungssprung gegenüber Claude 4.5 erreichen könnte.
Geleakte Claude 5 Benchmarks
Mehrere unbestätigte Quellen haben Benchmark-Ergebnisse geleakt, die auf einen massiven Leistungssprung bei Claude 5 hindeuten.
Geleakte Ergebnisse
SWE-bench Verified: ~87 % (vs. Opus 4.5: 80,9 %) GPQA Diamond: ~72 % (vs. Opus 4.5: 65,3 %) HumanEval: ~99 % (vs. Opus 4.5: 97,3 %) Terminal-Bench: ~74 % (vs. Opus 4.6: 68,4 %)Authentizitätsbewertung
Für Echtheit spricht:- Ergebnisse passen zu historischen Verbesserungsraten
- Mehrere unabhängige Quellen berichten ähnliche Zahlen
- Konsistent mit Fennec-Leak-Informationen
- Keine offizielle Bestätigung
- Könnten aus internen Tests stammen, nicht finale Ergebnisse
- Manche Quellen haben sich zuvor als unzuverlässig erwiesen
Auswirkungen
Falls diese Zahlen stimmen, würde Claude 5:
- Alle aktuellen Modelle bei Coding deutlich übertreffen
- Erstmals übermenschliches Niveau bei SWE-bench erreichen
- Die Lücke zu Codex bei Terminal-Bench schließen
Fazit
Die Leaks sind vielversprechend, aber nicht bestätigt. Entwickler sollten abwarten und auf offizielle Ankündigungen achten.