Prévisions de benchmarks Claude 5 : scores SWE-bench et GPQA attendus

En bref

Basé sur les lois de mise à l'échelle et les schémas historiques, Claude 5 devrait atteindre : 85-92 % SWE-bench Verified, 90 %+ GPQA Diamond, 99 %+ HumanEval et 45-55 % ARC-AGI-2. La fuite Fennec suggère que Sonnet 5 atteint déjà 80,9 % sur SWE-bench, validant les prévisions optimistes.

Analyse historique de mise à l'échelle

Modèle	SWE-bench	Amélioration

Claude 3 Opus

49,0 %

Référence

Claude 3.5 Sonnet

64,0 %

+15 pts

Claude 4 Sonnet

72,0 %

+8 pts

Claude 4.5 Opus

80,9 %

+8,9 pts

Claude 5 (prévu)

85-92 %

+4-11 pts

Chaque génération montre des gains absolus décroissants mais une amélioration relative constante de 10-15 %.

Prévisions SWE-bench

Estimation conservatrice : 85 %

Basée sur le saut générationnel typique de 5-6 points

Tient compte de la saturation du benchmark

Suppose des améliorations architecturales incrémentales

Estimation optimiste : 92 %

L'architecture agent-native permet une meilleure décomposition des tâches

Le contexte étendu aide à comprendre les bases de code complètes

Le mode Dev Team permet une analyse multi-perspectives

Paysage concurrentiel

Benchmark	Claude 5	GPT-5.2	Gemini 3

SWE-bench

1er (85-92 %)

3e (76 %)

2e (78 %)

GPQA

1er (90 %+)

2e (85 %)

3e (82 %)

ARC-AGI-2

3e (50 %)

1er (54 %)

2e (52 %)

AIME

2e (95 %)

1er (100 %)

3e (92 %)

Conclusion

Claude 5 devrait dominer les benchmarks de programmation (SWE-bench, HumanEval) et de raisonnement scientifique (GPQA), tout en étant en retrait en mathématiques pures (AIME) et en raisonnement abstrait (ARC-AGI-2). Les performances réelles dépendront de votre cas d'usage spécifique — les scores de benchmark sont des indicateurs, pas des garanties.

Prévisions de benchmarks Claude 5 : SWE-bench et au-delà

En bref

Analyse historique de mise à l'échelle

Prévisions SWE-bench

Paysage concurrentiel

Conclusion

Ready to Experience Claude 5?