Прогнозы бенчмарков Claude 5: SWE-bench и не только
Основанные на данных прогнозы производительности бенчмарков Claude 5. Исторический анализ, законы масштабирования и ожидаемые результаты для SWE-bench, GPQA, ARC-AGI и других.
Краткий обзор
На основе законов масштабирования и исторических паттернов, Claude 5 прогнозируется на: 85-92% SWE-bench Verified, 90%+ GPQA Diamond, 99%+ HumanEval и 45-55% ARC-AGI-2. Утечка Fennec предполагает, что Sonnet 5 уже достигает 80.9% SWE-bench, подтверждая агрессивные прогнозы.
Исторический анализ масштабирования
| Модель | SWE-bench | Улучшение |
|---|
| Claude 3 Opus | 49.0% | Базовый |
| Claude 3.5 Sonnet | 64.0% | +15 пп |
| Claude 4 Sonnet | 72.0% | +8 пп |
| Claude 4.5 Opus | 80.9% | +8.9 пп |
| Claude 5 (прогноз) | 85-92% | +4-11 пп |
Каждое поколение показывает уменьшающийся абсолютный прирост, но стабильное относительное улучшение на 10-15%.
Прогнозы SWE-bench
Консервативная оценка: 85%
- На основе типичного поколенческого скачка в 5-6 пунктов
- Учитывает насыщение бенчмарка
- Предполагает инкрементальные улучшения архитектуры
- Нативно-агентная архитектура позволяет лучше декомпозировать задачи
- Расширенный контекст помогает понять полные кодовые базы
- Режим Dev Team обеспечивает многоперспективный анализ
- Текущий лидер: GPT-5.2 с 54.2%
- Claude 4.5 Opus: ~30%
- Прогноз Claude 5: 45-55%
- HumanEval: Ожидается 99%+ (близко к потолку)
- MBPP: Ожидается 97%+
- Ожидается: 500K-1M токенов
- Качество на максимуме: Лидирующее в отрасли
- Текущий Opus: 3.2с
- Цель Claude 5: 2.0-2.5с
- Всё ещё медленнее GPT-5.2 (1.5с)
- Модели могут запоминать ответы бенчмарков
- Реальная производительность отличается от бенчмарков
- «Ощущения» часто лучше баллов для выбора
- Надёжность на граничных случаях
- Консистентность формата вывода
- Калибровку отказов (чрезмерная осторожность vs полезность)
- Связность длительных диалогов
- Простоту интеграции и стабильность API
Оптимистичная оценка: 92%
Подтверждение утечкой Fennec: 80.9% для Sonnet 5 предполагает, что Opus может достичь 85-90%
Прогнозы GPQA Diamond
Рассуждение на уровне аспирантуры по естественным наукам:
| Модель | Результат |
|---|
| Claude 4.5 Opus | 87.3% |
| GPT-5.2 | ~85% |
| Claude 5 (прогноз) | 90-93% |
Claude стабильно лидирует в этом бенчмарке. Ожидается продолжение доминирования.
Прогнозы ARC-AGI-2
Новаторское рассуждение без утечки обучающих данных:
Это слабейшая область Claude. Необходимы значительные инвестиции для достижения уровня GPT-5.2.
HumanEval и MBPP
Точность генерации кода:
Оба бенчмарка приближаются к насыщению — ожидаются незначительные улучшения.
Бенчмарки контекста и скорости
Контекстное окно:
Скорость (TTFT):
Скептицизм относительно бенчмарков
Обсуждения на Hacker News поднимают обоснованные вопросы:
Рекомендация: тестируйте на ВАШИХ конкретных задачах, а не только по опубликованным бенчмаркам.
Что бенчмарки не измеряют
Конкурентный ландшафт
| Бенчмарк | Claude 5 | GPT-5.2 | Gemini 3 |
|---|
| SWE-bench | 1-й (85-92%) | 3-й (76%) | 2-й (78%) |
| GPQA | 1-й (90%+) | 2-й (85%) | 3-й (82%) |
| ARC-AGI-2 | 3-й (50%) | 1-й (54%) | 2-й (52%) |
| AIME | 2-й (95%) | 1-й (100%) | 3-й (92%) |
Заключение
Прогнозируется, что Claude 5 будет лидировать в бенчмарках программирования (SWE-bench, HumanEval) и научного рассуждения (GPQA), уступая в чистой математике (AIME) и абстрактном рассуждении (ARC-AGI-2). Реальная производительность будет зависеть от конкретного сценария использования — результаты бенчмарков являются индикаторами, а не гарантиями.