ReviewNovember 26, 2025
GPT-5.1 Leistungsreview: Vollständige Benchmark-Analyse (November 2025)
Umfassender Review der GPT-5.1-Leistung über alle wichtigen Benchmarks. SWE-bench, AIME 2025, adaptives Reasoning und Vergleich mit Wettbewerbern.
GPT-5.1 Leistungsreview
OpenAI veröffentlichte GPT-5.1 am 13. November 2025. Hier ist unsere umfassende Benchmark-Analyse.
Benchmark-Ergebnisse
Coding-Leistung
- SWE-bench Verified: 76,3 % (Anstieg von 74,2 %)
- HumanEval: 98,1 %
- MBPP: 96,4 %
Reasoning-Leistung
- AIME 2025: 94,0 % (Top 0,1 % menschliche Leistung)
- GPQA Diamond: 81,9 %
- MMLU: 92,4 %
Wichtigste Innovation: Adaptives Reasoning
GPT-5.1 führt adaptives Reasoning mit dynamischer Denkzeit ein:
- Passt Rechenaufwand automatisch an Aufgabenkomplexität an
- 30 % bessere Token-Effizienz
- Hält Qualität bei und reduziert Kosten
Geschwindigkeitsverbesserungen
| Metrik | GPT-5.0 | GPT-5.1 | Verbesserung |
| TTFT | 2,4s | 1,8s | 25 % schneller |
| Tokens/s | ~55 | ~70 | 27 % schneller |
Fazit
GPT-5.1 ist ein solides Upgrade mit besonderem Fokus auf Geschwindigkeit und Effizienz. Es bleibt hinter Claude bei Coding und Reasoning zurück, bietet aber das beste Preis-Leistungs-Verhältnis im Markt.