评测November 26, 2025

GPT-5.1 性能评测：完整基准分析（2025 年 11 月）

GPT-5.1 全面性能评测，涵盖所有主要基准。SWE-bench、AIME 2025、自适应推理分析及竞品对比。

GPT-5.1 性能评测

OpenAI 于 2025 年 11 月 13 日发布 GPT-5.1。以下是全面基准分析。

基准结果

编码表现

SWE-bench Verified： 76.3%

HumanEval： 98.1%

MBPP： 96.4%

推理表现

AIME 2025： 94.0%（人类前 0.1% 水平）

GPQA Diamond： 81.9%

MMLU： 92.4%

关键创新：自适应推理

GPT-5.1 引入自适应推理，动态调整思考时间：

自动根据任务复杂度调整计算量

Token 效率提升 30%

在保持质量的同时降低成本

速度提升

指标

GPT-5.0

GPT-5.1

提升

首 Token 时间

2.4s

1.8s

快 25%

Token/秒

~55

~70

快 27%

定价

层级

输入 ($/M)

输出 ($/M)

GPT-5.1

$2.50

$10

GPT-5.1 Mini

$0.50

$2

最终评分：8.8/10

GPT-5.1 提供了出色的性价比和竞争力性能。速度和定价优势使其对许多场景具有吸引力。

Ready to Experience Claude 5?

Back to All News