Обзор производительности GPT-5.1: полный анализ бенчмарков (ноябрь 2025)

Полный обзор бенчмарков GPT-5.1

GPT-5.1, выпущенный в ноябре 2025, демонстрирует сильную производительность по всем метрикам.

Бенчмарк

GPT-5.1

GPT-5.0

Изменение

SWE-bench

76.3%

68.7%

+7.6%

AIME 2025

94%

88%

+6%

MMLU

86.2%

84.1%

+2.1%

HumanEval

94.2%

92.8%

+1.4%

GPT-5.1 вводит адаптивное мышление — модель сама определяет, когда нужны глубокие рассуждения.

Отстаёт от Claude Opus 4.5 в программировании (76.3% vs 80.9%), но дешевле и быстрее.

GPT-5.1 — сильная модель с лучшим соотношением цена/качество, но Claude сохраняет лидерство в сложном программировании.