Анализ

Прогнозы бенчмарков Claude 5: SWE-bench и не только

Основанные на данных прогнозы производительности бенчмарков Claude 5. Исторический анализ, законы масштабирования и ожидаемые результаты для SWE-bench, GPQA, ARC-AGI и других.

February 2026

Краткий обзор

На основе законов масштабирования и исторических паттернов, Claude 5 прогнозируется на: 85-92% SWE-bench Verified, 90%+ GPQA Diamond, 99%+ HumanEval и 45-55% ARC-AGI-2. Утечка Fennec предполагает, что Sonnet 5 уже достигает 80.9% SWE-bench, подтверждая агрессивные прогнозы.

Исторический анализ масштабирования

МодельSWE-benchУлучшение
Claude 3 Opus49.0%Базовый
Claude 3.5 Sonnet64.0%+15 пп
Claude 4 Sonnet72.0%+8 пп
Claude 4.5 Opus80.9%+8.9 пп
Claude 5 (прогноз)85-92%+4-11 пп

Каждое поколение показывает уменьшающийся абсолютный прирост, но стабильное относительное улучшение на 10-15%.

Прогнозы SWE-bench

Консервативная оценка: 85%

    • На основе типичного поколенческого скачка в 5-6 пунктов
      • Учитывает насыщение бенчмарка
        • Предполагает инкрементальные улучшения архитектуры

        Оптимистичная оценка: 92%

          • Нативно-агентная архитектура позволяет лучше декомпозировать задачи
            • Расширенный контекст помогает понять полные кодовые базы
              • Режим Dev Team обеспечивает многоперспективный анализ

              Подтверждение утечкой Fennec: 80.9% для Sonnet 5 предполагает, что Opus может достичь 85-90%

              Прогнозы GPQA Diamond

              Рассуждение на уровне аспирантуры по естественным наукам:

              МодельРезультат
              Claude 4.5 Opus87.3%
              GPT-5.2~85%
              Claude 5 (прогноз)90-93%

              Claude стабильно лидирует в этом бенчмарке. Ожидается продолжение доминирования.

              Прогнозы ARC-AGI-2

              Новаторское рассуждение без утечки обучающих данных:

                • Текущий лидер: GPT-5.2 с 54.2%
                  • Claude 4.5 Opus: ~30%
                    • Прогноз Claude 5: 45-55%

                    Это слабейшая область Claude. Необходимы значительные инвестиции для достижения уровня GPT-5.2.

                    HumanEval и MBPP

                    Точность генерации кода:

                      • HumanEval: Ожидается 99%+ (близко к потолку)
                        • MBPP: Ожидается 97%+

                        Оба бенчмарка приближаются к насыщению — ожидаются незначительные улучшения.

                        Бенчмарки контекста и скорости

                        Контекстное окно:

                          • Ожидается: 500K-1M токенов
                            • Качество на максимуме: Лидирующее в отрасли

                            Скорость (TTFT):

                              • Текущий Opus: 3.2с
                                • Цель Claude 5: 2.0-2.5с
                                  • Всё ещё медленнее GPT-5.2 (1.5с)

                                  Скептицизм относительно бенчмарков

                                  Обсуждения на Hacker News поднимают обоснованные вопросы:

                                    • Модели могут запоминать ответы бенчмарков
                                      • Реальная производительность отличается от бенчмарков
                                        • «Ощущения» часто лучше баллов для выбора

                                        Рекомендация: тестируйте на ВАШИХ конкретных задачах, а не только по опубликованным бенчмаркам.

                                        Что бенчмарки не измеряют

                                          • Надёжность на граничных случаях
                                            • Консистентность формата вывода
                                              • Калибровку отказов (чрезмерная осторожность vs полезность)
                                                • Связность длительных диалогов
                                                  • Простоту интеграции и стабильность API

                                                  Конкурентный ландшафт

                                                  БенчмаркClaude 5GPT-5.2Gemini 3
                                                  SWE-bench1-й (85-92%)3-й (76%)2-й (78%)
                                                  GPQA1-й (90%+)2-й (85%)3-й (82%)
                                                  ARC-AGI-23-й (50%)1-й (54%)2-й (52%)
                                                  AIME2-й (95%)1-й (100%)3-й (92%)

                                                  Заключение

                                                  Прогнозируется, что Claude 5 будет лидировать в бенчмарках программирования (SWE-bench, HumanEval) и научного рассуждения (GPQA), уступая в чистой математике (AIME) и абстрактном рассуждении (ARC-AGI-2). Реальная производительность будет зависеть от конкретного сценария использования — результаты бенчмарков являются индикаторами, а не гарантиями.

Ready to Experience Claude 5?

Try Now