GPT-5.1 Leistungsreview: Vollständige Benchmark-Analyse (November 2025)

GPT-5.1 Leistungsreview

OpenAI veröffentlichte GPT-5.1 am 13. November 2025. Hier ist unsere umfassende Benchmark-Analyse.

Benchmark-Ergebnisse

Coding-Leistung

SWE-bench Verified: 76,3 % (Anstieg von 74,2 %)

HumanEval: 98,1 %

MBPP: 96,4 %

Reasoning-Leistung

AIME 2025: 94,0 % (Top 0,1 % menschliche Leistung)

GPQA Diamond: 81,9 %

MMLU: 92,4 %

Wichtigste Innovation: Adaptives Reasoning

GPT-5.1 führt adaptives Reasoning mit dynamischer Denkzeit ein:

Passt Rechenaufwand automatisch an Aufgabenkomplexität an

30 % bessere Token-Effizienz

Hält Qualität bei und reduziert Kosten

Geschwindigkeitsverbesserungen

Metrik

GPT-5.0

GPT-5.1

Verbesserung

TTFT

2,4s

1,8s

25 % schneller

Tokens/s

~55

~70

27 % schneller

Fazit

GPT-5.1 ist ein solides Upgrade mit besonderem Fokus auf Geschwindigkeit und Effizienz. Es bleibt hinter Claude bei Coding und Reasoning zurück, bietet aber das beste Preis-Leistungs-Verhältnis im Markt.