АнализNovember 26, 2025

Обзор производительности GPT-5.1: полный анализ бенчмарков (ноябрь 2025)

Исчерпывающий обзор производительности GPT-5.1 по всем основным бенчмаркам. Анализ SWE-bench, AIME 2025, адаптивных рассуждений и сравнение с конкурентами.

Полный обзор бенчмарков GPT-5.1

GPT-5.1, выпущенный в ноябре 2025, демонстрирует сильную производительность по всем метрикам.

Результаты бенчмарков

БенчмаркGPT-5.1GPT-5.0Изменение
SWE-bench76.3%68.7%+7.6%
AIME 202594%88%+6%
MMLU86.2%84.1%+2.1%
HumanEval94.2%92.8%+1.4%

Адаптивные рассуждения

GPT-5.1 вводит адаптивное мышление — модель сама определяет, когда нужны глубокие рассуждения.

Конкурентное сравнение

Отстаёт от Claude Opus 4.5 в программировании (76.3% vs 80.9%), но дешевле и быстрее.

Заключение

GPT-5.1 — сильная модель с лучшим соотношением цена/качество, но Claude сохраняет лидерство в сложном программировании.

Ready to Experience Claude 5?

Try Now