Срочные новостиFebruary 6, 2026
Утечки бенчмарков Claude 5 указывают на 25% скачок производительности по сравнению с Claude 4.5
Неофициальные утечки бенчмарков указывают, что Claude 5 может достичь 92% на SWE-bench и 99.1% на HumanEval, устанавливая новые рекорды возможностей ИИ-программирования.
Утечки указывают на массивный скачок производительности
Неофициальные утечки бенчмарков рисуют впечатляющую картину возможностей Claude 5.
Утёкшие результаты
| Бенчмарк | Claude 4.5 Opus | Claude 5 (утечка) | Изменение |
| SWE-bench | 80.9% | 92% | +11.1% |
| HumanEval | 97.3% | 99.1% | +1.8% |
| GPQA | 65.3% | 78% | +12.7% |
| MMLU | 88.7% | 94.2% | +5.5% |
Анализ достоверности
Несколько факторов подтверждают достоверность:
- Масштаб улучшений соответствует историческим паттернам
- Источники совпадают с предыдущими точными утечками
- Технические детали согласуются с известными исследованиями Anthropic
Что означает 92% на SWE-bench
- 92 из 100 реальных задач решены автономно
- Превосходит среднего профессионального разработчика
- Достаточно для автономной разработки многих типов ПО
Заключение
Если утечки точны, Claude 5 представит самый значительный скачок в возможностях ИИ-программирования.