Les Benchmarks Divulgués de Claude 5 Suggèrent un Bond de Performance de 25 % par Rapport à Claude 4.5
Des fuites de benchmarks non officiels indiquent que Claude 5 pourrait atteindre 92 % sur SWE-bench et 99,1 % sur HumanEval, établissant de nouveaux records pour les capacités de codage IA.
Fuites de Benchmarks Claude 5
Des benchmarks non officiels divulgués suggèrent que Claude 5 pourrait représenter un bond de performance de 25 % par rapport à Claude 4.5.
Scores Divulgués
| Benchmark | Claude 4.5 | Claude 5 (Fuite) | Amélioration |
| SWE-bench | 80,9 % | ~92 % | +11,1 pts |
| HumanEval | 97,3 % | ~99,1 % | +1,8 pts |
| GPQA | 87,3 % | ~93 % | +5,7 pts |
Fiabilité des Sources
Ces fuites doivent être prises avec prudence. Les benchmarks fuités surestiment souvent les performances finales. Cependant, si même partiellement exactes, elles indiqueraient un progrès remarquable.
Implications
Un score SWE-bench de 92 % signifierait que Claude 5 résout 9 problèmes sur 10 de vrais projets GitHub de manière autonome — un niveau de performance surhumain.
Conclusion
Si confirmées, ces fuites placeraient Claude 5 dans une catégorie à part. Attendez les résultats officiels d'Anthropic pour confirmer ces performances.