EilmeldungFebruary 6, 2026

Claude 5 Benchmark-Leaks deuten auf massiven Leistungssprung hin

Durchgesickerte Benchmark-Ergebnisse deuten darauf hin, dass Claude 5 einen erheblichen Leistungssprung gegenüber Claude 4.5 erreichen könnte.

Geleakte Claude 5 Benchmarks

Mehrere unbestätigte Quellen haben Benchmark-Ergebnisse geleakt, die auf einen massiven Leistungssprung bei Claude 5 hindeuten.

Geleakte Ergebnisse

SWE-bench Verified: ~87 % (vs. Opus 4.5: 80,9 %) GPQA Diamond: ~72 % (vs. Opus 4.5: 65,3 %) HumanEval: ~99 % (vs. Opus 4.5: 97,3 %) Terminal-Bench: ~74 % (vs. Opus 4.6: 68,4 %)

Authentizitätsbewertung

Für Echtheit spricht:
  • Ergebnisse passen zu historischen Verbesserungsraten
  • Mehrere unabhängige Quellen berichten ähnliche Zahlen
  • Konsistent mit Fennec-Leak-Informationen
Gegen Echtheit spricht:
  • Keine offizielle Bestätigung
  • Könnten aus internen Tests stammen, nicht finale Ergebnisse
  • Manche Quellen haben sich zuvor als unzuverlässig erwiesen

Auswirkungen

Falls diese Zahlen stimmen, würde Claude 5:

  • Alle aktuellen Modelle bei Coding deutlich übertreffen
  • Erstmals übermenschliches Niveau bei SWE-bench erreichen
  • Die Lücke zu Codex bei Terminal-Bench schließen

Fazit

Die Leaks sind vielversprechend, aber nicht bestätigt. Entwickler sollten abwarten und auf offizielle Ankündigungen achten.

Ready to Experience Claude 5?

Try Now