Срочные новостиFebruary 6, 2026

Утечки бенчмарков Claude 5 указывают на 25% скачок производительности по сравнению с Claude 4.5

Неофициальные утечки бенчмарков указывают, что Claude 5 может достичь 92% на SWE-bench и 99.1% на HumanEval, устанавливая новые рекорды возможностей ИИ-программирования.

Утечки указывают на массивный скачок производительности

Неофициальные утечки бенчмарков рисуют впечатляющую картину возможностей Claude 5.

Утёкшие результаты

Бенчмарк

Claude 4.5 Opus

Claude 5 (утечка)

Изменение

SWE-bench

80.9%

92%

+11.1%

HumanEval

97.3%

99.1%

+1.8%

GPQA

65.3%

78%

+12.7%

MMLU

88.7%

94.2%

+5.5%

Анализ достоверности

Несколько факторов подтверждают достоверность:

Масштаб улучшений соответствует историческим паттернам

Источники совпадают с предыдущими точными утечками

Технические детали согласуются с известными исследованиями Anthropic

Что означает 92% на SWE-bench

92 из 100 реальных задач решены автономно

Превосходит среднего профессионального разработчика

Достаточно для автономной разработки многих типов ПО

Заключение

Если утечки точны, Claude 5 представит самый значительный скачок в возможностях ИИ-программирования.

Ready to Experience Claude 5?

Back to All News