Прогнозы бенчмарков Claude 5: Ожидаемые результаты SWE-bench и GPQA

Краткий обзор

На основе законов масштабирования и исторических паттернов, Claude 5 прогнозируется на: 85-92% SWE-bench Verified, 90%+ GPQA Diamond, 99%+ HumanEval и 45-55% ARC-AGI-2. Утечка Fennec предполагает, что Sonnet 5 уже достигает 80.9% SWE-bench, подтверждая агрессивные прогнозы.

Исторический анализ масштабирования

Модель	SWE-bench	Улучшение

Claude 3 Opus

49.0%

Базовый

Claude 3.5 Sonnet

64.0%

+15 пп

Claude 4 Sonnet

72.0%

+8 пп

Claude 4.5 Opus

80.9%

+8.9 пп

Claude 5 (прогноз)

85-92%

+4-11 пп

Каждое поколение показывает уменьшающийся абсолютный прирост, но стабильное относительное улучшение на 10-15%.

Прогнозы SWE-bench

Консервативная оценка: 85%

На основе типичного поколенческого скачка в 5-6 пунктов

Учитывает насыщение бенчмарка

Предполагает инкрементальные улучшения архитектуры

Оптимистичная оценка: 92%

Нативно-агентная архитектура позволяет лучше декомпозировать задачи

Расширенный контекст помогает понять полные кодовые базы

Режим Dev Team обеспечивает многоперспективный анализ

Подтверждение утечкой Fennec: 80.9% для Sonnet 5 предполагает, что Opus может достичь 85-90%

Прогнозы GPQA Diamond

Рассуждение на уровне аспирантуры по естественным наукам:

Модель	Результат

Claude 4.5 Opus

87.3%

GPT-5.2

~85%

Claude 5 (прогноз)

90-93%

Claude стабильно лидирует в этом бенчмарке. Ожидается продолжение доминирования.

Прогнозы ARC-AGI-2

Новаторское рассуждение без утечки обучающих данных:

Текущий лидер: GPT-5.2 с 54.2%

Claude 4.5 Opus: ~30%

Прогноз Claude 5: 45-55%

Это слабейшая область Claude. Необходимы значительные инвестиции для достижения уровня GPT-5.2.

HumanEval и MBPP

Точность генерации кода:

HumanEval: Ожидается 99%+ (близко к потолку)

MBPP: Ожидается 97%+

Оба бенчмарка приближаются к насыщению — ожидаются незначительные улучшения.

Бенчмарки контекста и скорости

Контекстное окно:

Ожидается: 500K-1M токенов

Качество на максимуме: Лидирующее в отрасли

Скорость (TTFT):

Текущий Opus: 3.2с

Цель Claude 5: 2.0-2.5с

Всё ещё медленнее GPT-5.2 (1.5с)

Скептицизм относительно бенчмарков

Обсуждения на Hacker News поднимают обоснованные вопросы:

Модели могут запоминать ответы бенчмарков

Реальная производительность отличается от бенчмарков

«Ощущения» часто лучше баллов для выбора

Рекомендация: тестируйте на ВАШИХ конкретных задачах, а не только по опубликованным бенчмаркам.

Что бенчмарки не измеряют

Надёжность на граничных случаях

Консистентность формата вывода

Калибровку отказов (чрезмерная осторожность vs полезность)

Связность длительных диалогов

Простоту интеграции и стабильность API

Конкурентный ландшафт

Бенчмарк	Claude 5	GPT-5.2	Gemini 3

SWE-bench

1-й (85-92%)

3-й (76%)

2-й (78%)

GPQA

1-й (90%+)

2-й (85%)

3-й (82%)

ARC-AGI-2

3-й (50%)

1-й (54%)

2-й (52%)

AIME

2-й (95%)

1-й (100%)

3-й (92%)

Заключение

Прогнозируется, что Claude 5 будет лидировать в бенчмарках программирования (SWE-bench, HumanEval) и научного рассуждения (GPQA), уступая в чистой математике (AIME) и абстрактном рассуждении (ARC-AGI-2). Реальная производительность будет зависеть от конкретного сценария использования — результаты бенчмарков являются индикаторами, а не гарантиями.

Прогнозы бенчмарков Claude 5: SWE-bench и не только