АнализFebruary 7, 2026
Ожидается, что Claude 5 наберёт 85%+ на SWE-bench: анализ бенчмарков
Технический анализ того, почему Claude 5 прогнозируется достичь 85%+ на SWE-bench Verified. Законы масштабирования, улучшения архитектуры и отраслевые ожидания.
Почему 85%+ на SWE-bench реалистично
Технический анализ прогнозируемой производительности Claude 5.
Историческая прогрессия
- Claude 3 Opus: 49.0%
- Claude 3.5 Sonnet: 64.0%
- Claude 4 Opus: 72.5%
- Claude 4.5 Opus: 80.9%
- Claude 5 (прогноз): 85-92%
Законы масштабирования
Темпы улучшения замедляются, но остаются значимыми: +5-11% за поколение.
Архитектурные инновации
- Расширенное мышление увеличивает точность на сложных задачах
- Улучшенная обработка длинного контекста
- Более эффективное использование токенов
Заключение
85%+ реалистичен. 90%+ возможен при прорывах в расширенном мышлении.