Claude 5 достигает 85% на SWE-bench: новый рекорд бенчмарка ИИ-кодирования
Claude 5 от Anthropic устанавливает новый рекорд на SWE-bench Verified с результатом 85,3%.
Claude 5 достигает 85% на SWE-bench: новый рекорд
Anthropic объявила о том, что Claude 5 достиг результата 85,3% на бенчмарке SWE-bench Verified — наиболее признанном стандарте оценки способностей ИИ к решению реальных задач программирования.
Что такое SWE-bench
SWE-bench Verified содержит 500 реальных GitHub issue из популярных open-source репозиториев Python. Модель должна автономно исправить баг или реализовать функцию, проходя существующие тесты проекта.
Сравнительная таблица результатов
| Модель | SWE-bench Verified | Дата |
| Claude 5 | 85,3% | Февраль 2026 |
| Claude 4 (Opus) | 72,4% | Ноябрь 2025 |
| GPT-5 | 79,1% | Январь 2026 |
| Gemini 2.0 Ultra | 74,8% | Декабрь 2025 |
| GitHub Copilot | 61,3% | Январь 2026 |
Ключевые улучшения Claude 5
- Расширенное мышление — многоэтапные рассуждения перед написанием кода
- Лучшее понимание кодовой базы — анализ всего репозитория, а не отдельных файлов
- Улучшенная отладка — более точная диагностика причин ошибок
- Надёжное выполнение тестов — понимание тестовых фреймворков и паттернов
Реакция разработчиков
Сообщество разработчиков встретило новость с энтузиазмом. В социальных сетях широко распространились примеры задач, которые Claude 5 решил автономно за считанные минуты — задач, на которые разработчики тратили часы.
> "85% на SWE-bench — это не просто цифра. Это означает, что значительная часть реальных баг-репортов теперь может быть исправлена без участия человека."
Что это означает для разработчиков
Переход от 72% к 85% — качественный скачок. При 72% инструмент полезен для простых задач. При 85% он начинает справляться со сложными многофайловыми проблемами, которые прежде требовали опытного разработчика.
Заключение
Результат 85,3% на SWE-bench устанавливает новую планку для ИИ-систем кодирования. Claude 5 Code доступен всем пользователям подписки Claude Pro и через API Anthropic.