评测November 26, 2025

GPT-5.1 性能评测:完整基准分析(2025 年 11 月)

GPT-5.1 全面性能评测,涵盖所有主要基准。SWE-bench、AIME 2025、自适应推理分析及竞品对比。

GPT-5.1 性能评测

OpenAI 于 2025 年 11 月 13 日发布 GPT-5.1。以下是全面基准分析。

基准结果

编码表现

  • SWE-bench Verified: 76.3%
  • HumanEval: 98.1%
  • MBPP: 96.4%

推理表现

  • AIME 2025: 94.0%(人类前 0.1% 水平)
  • GPQA Diamond: 81.9%
  • MMLU: 92.4%

关键创新:自适应推理

GPT-5.1 引入自适应推理,动态调整思考时间:

  • 自动根据任务复杂度调整计算量
  • Token 效率提升 30%
  • 在保持质量的同时降低成本

速度提升

指标GPT-5.0GPT-5.1提升
首 Token 时间2.4s1.8s快 25%
Token/秒~55~70快 27%

定价

层级输入 ($/M)输出 ($/M)
GPT-5.1$2.50$10
GPT-5.1 Mini$0.50$2

最终评分:8.8/10

GPT-5.1 提供了出色的性价比和竞争力性能。速度和定价优势使其对许多场景具有吸引力。

Ready to Experience Claude 5?

Try Now