Prévisions de benchmarks Claude 5 : SWE-bench et au-delà
Prévisions basées sur les données pour les benchmarks de Claude 5. Analyse historique, lois de mise à l'échelle et scores attendus pour SWE-bench, GPQA, ARC-AGI et plus.
En bref
Basé sur les lois de mise à l'échelle et les schémas historiques, Claude 5 devrait atteindre : 85-92 % SWE-bench Verified, 90 %+ GPQA Diamond, 99 %+ HumanEval et 45-55 % ARC-AGI-2. La fuite Fennec suggère que Sonnet 5 atteint déjà 80,9 % sur SWE-bench, validant les prévisions optimistes.
Analyse historique de mise à l'échelle
| Modèle | SWE-bench | Amélioration |
|---|
| Claude 3 Opus | 49,0 % | Référence |
| Claude 3.5 Sonnet | 64,0 % | +15 pts |
| Claude 4 Sonnet | 72,0 % | +8 pts |
| Claude 4.5 Opus | 80,9 % | +8,9 pts |
| Claude 5 (prévu) | 85-92 % | +4-11 pts |
Chaque génération montre des gains absolus décroissants mais une amélioration relative constante de 10-15 %.
Prévisions SWE-bench
Estimation conservatrice : 85 %
- Basée sur le saut générationnel typique de 5-6 points
- Tient compte de la saturation du benchmark
- Suppose des améliorations architecturales incrémentales
- L'architecture agent-native permet une meilleure décomposition des tâches
- Le contexte étendu aide à comprendre les bases de code complètes
- Le mode Dev Team permet une analyse multi-perspectives
Estimation optimiste : 92 %
Paysage concurrentiel
| Benchmark | Claude 5 | GPT-5.2 | Gemini 3 |
|---|
| SWE-bench | 1er (85-92 %) | 3e (76 %) | 2e (78 %) |
| GPQA | 1er (90 %+) | 2e (85 %) | 3e (82 %) |
| ARC-AGI-2 | 3e (50 %) | 1er (54 %) | 2e (52 %) |
| AIME | 2e (95 %) | 1er (100 %) | 3e (92 %) |
Conclusion
Claude 5 devrait dominer les benchmarks de programmation (SWE-bench, HumanEval) et de raisonnement scientifique (GPQA), tout en étant en retrait en mathématiques pures (AIME) et en raisonnement abstrait (ARC-AGI-2). Les performances réelles dépendront de votre cas d'usage spécifique — les scores de benchmark sont des indicateurs, pas des garanties.