评测November 26, 2025
GPT-5.1 性能评测:完整基准分析(2025 年 11 月)
GPT-5.1 全面性能评测,涵盖所有主要基准。SWE-bench、AIME 2025、自适应推理分析及竞品对比。
GPT-5.1 性能评测
OpenAI 于 2025 年 11 月 13 日发布 GPT-5.1。以下是全面基准分析。
基准结果
编码表现
- SWE-bench Verified: 76.3%
- HumanEval: 98.1%
- MBPP: 96.4%
推理表现
- AIME 2025: 94.0%(人类前 0.1% 水平)
- GPQA Diamond: 81.9%
- MMLU: 92.4%
关键创新:自适应推理
GPT-5.1 引入自适应推理,动态调整思考时间:
- 自动根据任务复杂度调整计算量
- Token 效率提升 30%
- 在保持质量的同时降低成本
速度提升
| 指标 | GPT-5.0 | GPT-5.1 | 提升 |
| 首 Token 时间 | 2.4s | 1.8s | 快 25% |
| Token/秒 | ~55 | ~70 | 快 27% |
定价
| 层级 | 输入 ($/M) | 输出 ($/M) |
| GPT-5.1 | $2.50 | $10 |
| GPT-5.1 Mini | $0.50 | $2 |
最终评分:8.8/10
GPT-5.1 提供了出色的性价比和竞争力性能。速度和定价优势使其对许多场景具有吸引力。