АнализNovember 26, 2025
Обзор производительности GPT-5.1: полный анализ бенчмарков (ноябрь 2025)
Исчерпывающий обзор производительности GPT-5.1 по всем основным бенчмаркам. Анализ SWE-bench, AIME 2025, адаптивных рассуждений и сравнение с конкурентами.
Полный обзор бенчмарков GPT-5.1
GPT-5.1, выпущенный в ноябре 2025, демонстрирует сильную производительность по всем метрикам.
Результаты бенчмарков
| Бенчмарк | GPT-5.1 | GPT-5.0 | Изменение |
| SWE-bench | 76.3% | 68.7% | +7.6% |
| AIME 2025 | 94% | 88% | +6% |
| MMLU | 86.2% | 84.1% | +2.1% |
| HumanEval | 94.2% | 92.8% | +1.4% |
Адаптивные рассуждения
GPT-5.1 вводит адаптивное мышление — модель сама определяет, когда нужны глубокие рассуждения.
Конкурентное сравнение
Отстаёт от Claude Opus 4.5 в программировании (76.3% vs 80.9%), но дешевле и быстрее.
Заключение
GPT-5.1 — сильная модель с лучшим соотношением цена/качество, но Claude сохраняет лидерство в сложном программировании.