Claude 5 Benchmark-Leaks deuten auf massiven Leistungssprung hin

Geleakte Claude 5 Benchmarks

Mehrere unbestätigte Quellen haben Benchmark-Ergebnisse geleakt, die auf einen massiven Leistungssprung bei Claude 5 hindeuten.

Geleakte Ergebnisse

SWE-bench Verified: ~87 % (vs. Opus 4.5: 80,9 %) GPQA Diamond: ~72 % (vs. Opus 4.5: 65,3 %) HumanEval: ~99 % (vs. Opus 4.5: 97,3 %) Terminal-Bench: ~74 % (vs. Opus 4.6: 68,4 %)

Authentizitätsbewertung

Für Echtheit spricht:

Ergebnisse passen zu historischen Verbesserungsraten

Mehrere unabhängige Quellen berichten ähnliche Zahlen

Konsistent mit Fennec-Leak-Informationen

Gegen Echtheit spricht:

Keine offizielle Bestätigung

Könnten aus internen Tests stammen, nicht finale Ergebnisse

Manche Quellen haben sich zuvor als unzuverlässig erwiesen

Auswirkungen

Falls diese Zahlen stimmen, würde Claude 5:

Alle aktuellen Modelle bei Coding deutlich übertreffen

Erstmals übermenschliches Niveau bei SWE-bench erreichen

Die Lücke zu Codex bei Terminal-Bench schließen

Fazit

Die Leaks sind vielversprechend, aber nicht bestätigt. Entwickler sollten abwarten und auf offizielle Ankündigungen achten.

Geleakte Claude 5 Benchmarks

Geleakte Ergebnisse

Authentizitätsbewertung

Auswirkungen

Fazit

Ready to Experience Claude 5?