Срочные новостиFebruary 6, 2026

Утечки бенчмарков Claude 5 указывают на 25% скачок производительности по сравнению с Claude 4.5

Неофициальные утечки бенчмарков указывают, что Claude 5 может достичь 92% на SWE-bench и 99.1% на HumanEval, устанавливая новые рекорды возможностей ИИ-программирования.

Утечки указывают на массивный скачок производительности

Неофициальные утечки бенчмарков рисуют впечатляющую картину возможностей Claude 5.

Утёкшие результаты

БенчмаркClaude 4.5 OpusClaude 5 (утечка)Изменение
SWE-bench80.9%92%+11.1%
HumanEval97.3%99.1%+1.8%
GPQA65.3%78%+12.7%
MMLU88.7%94.2%+5.5%

Анализ достоверности

Несколько факторов подтверждают достоверность:

  • Масштаб улучшений соответствует историческим паттернам
  • Источники совпадают с предыдущими точными утечками
  • Технические детали согласуются с известными исследованиями Anthropic

Что означает 92% на SWE-bench

  • 92 из 100 реальных задач решены автономно
  • Превосходит среднего профессионального разработчика
  • Достаточно для автономной разработки многих типов ПО

Заключение

Если утечки точны, Claude 5 представит самый значительный скачок в возможностях ИИ-программирования.

Ready to Experience Claude 5?

Try Now