ReviewNovember 26, 2025

GPT-5.1 Leistungsreview: Vollständige Benchmark-Analyse (November 2025)

Umfassender Review der GPT-5.1-Leistung über alle wichtigen Benchmarks. SWE-bench, AIME 2025, adaptives Reasoning und Vergleich mit Wettbewerbern.

GPT-5.1 Leistungsreview

OpenAI veröffentlichte GPT-5.1 am 13. November 2025. Hier ist unsere umfassende Benchmark-Analyse.

Benchmark-Ergebnisse

Coding-Leistung

  • SWE-bench Verified: 76,3 % (Anstieg von 74,2 %)
  • HumanEval: 98,1 %
  • MBPP: 96,4 %

Reasoning-Leistung

  • AIME 2025: 94,0 % (Top 0,1 % menschliche Leistung)
  • GPQA Diamond: 81,9 %
  • MMLU: 92,4 %

Wichtigste Innovation: Adaptives Reasoning

GPT-5.1 führt adaptives Reasoning mit dynamischer Denkzeit ein:

  • Passt Rechenaufwand automatisch an Aufgabenkomplexität an
  • 30 % bessere Token-Effizienz
  • Hält Qualität bei und reduziert Kosten

Geschwindigkeitsverbesserungen

MetrikGPT-5.0GPT-5.1Verbesserung
TTFT2,4s1,8s25 % schneller
Tokens/s~55~7027 % schneller

Fazit

GPT-5.1 ist ein solides Upgrade mit besonderem Fokus auf Geschwindigkeit und Effizienz. Es bleibt hinter Claude bei Coding und Reasoning zurück, bietet aber das beste Preis-Leistungs-Verhältnis im Markt.

Ready to Experience Claude 5?

Try Now