Claude 5 достигает 85% на SWE-bench: новый рекорд бенчмарка ИИ-кодирования

Claude 5 достигает 85% на SWE-bench: новый рекорд

Anthropic объявила о том, что Claude 5 достиг результата 85,3% на бенчмарке SWE-bench Verified — наиболее признанном стандарте оценки способностей ИИ к решению реальных задач программирования.

Что такое SWE-bench

SWE-bench Verified содержит 500 реальных GitHub issue из популярных open-source репозиториев Python. Модель должна автономно исправить баг или реализовать функцию, проходя существующие тесты проекта.

Сравнительная таблица результатов

Модель

SWE-bench Verified

Дата

Claude 5

85,3%

Февраль 2026

Claude 4 (Opus)

72,4%

Ноябрь 2025

GPT-5

79,1%

Январь 2026

Gemini 2.0 Ultra

74,8%

Декабрь 2025

GitHub Copilot

61,3%

Январь 2026

Ключевые улучшения Claude 5

Расширенное мышление — многоэтапные рассуждения перед написанием кода

Лучшее понимание кодовой базы — анализ всего репозитория, а не отдельных файлов

Улучшенная отладка — более точная диагностика причин ошибок

Надёжное выполнение тестов — понимание тестовых фреймворков и паттернов

Реакция разработчиков

Сообщество разработчиков встретило новость с энтузиазмом. В социальных сетях широко распространились примеры задач, которые Claude 5 решил автономно за считанные минуты — задач, на которые разработчики тратили часы.

> "85% на SWE-bench — это не просто цифра. Это означает, что значительная часть реальных баг-репортов теперь может быть исправлена без участия человека."

Что это означает для разработчиков

Переход от 72% к 85% — качественный скачок. При 72% инструмент полезен для простых задач. При 85% он начинает справляться со сложными многофайловыми проблемами, которые прежде требовали опытного разработчика.

Заключение

Результат 85,3% на SWE-bench устанавливает новую планку для ИИ-систем кодирования. Claude 5 Code доступен всем пользователям подписки Claude Pro и через API Anthropic.