Analyse

Prévisions de benchmarks Claude 5 : SWE-bench et au-delà

Prévisions basées sur les données pour les benchmarks de Claude 5. Analyse historique, lois de mise à l'échelle et scores attendus pour SWE-bench, GPQA, ARC-AGI et plus.

February 2026

En bref

Basé sur les lois de mise à l'échelle et les schémas historiques, Claude 5 devrait atteindre : 85-92 % SWE-bench Verified, 90 %+ GPQA Diamond, 99 %+ HumanEval et 45-55 % ARC-AGI-2. La fuite Fennec suggère que Sonnet 5 atteint déjà 80,9 % sur SWE-bench, validant les prévisions optimistes.

Analyse historique de mise à l'échelle

ModèleSWE-benchAmélioration
Claude 3 Opus49,0 %Référence
Claude 3.5 Sonnet64,0 %+15 pts
Claude 4 Sonnet72,0 %+8 pts
Claude 4.5 Opus80,9 %+8,9 pts
Claude 5 (prévu)85-92 %+4-11 pts

Chaque génération montre des gains absolus décroissants mais une amélioration relative constante de 10-15 %.

Prévisions SWE-bench

Estimation conservatrice : 85 %

    • Basée sur le saut générationnel typique de 5-6 points
      • Tient compte de la saturation du benchmark
        • Suppose des améliorations architecturales incrémentales

        Estimation optimiste : 92 %

          • L'architecture agent-native permet une meilleure décomposition des tâches
            • Le contexte étendu aide à comprendre les bases de code complètes
              • Le mode Dev Team permet une analyse multi-perspectives

              Paysage concurrentiel

              BenchmarkClaude 5GPT-5.2Gemini 3
              SWE-bench1er (85-92 %)3e (76 %)2e (78 %)
              GPQA1er (90 %+)2e (85 %)3e (82 %)
              ARC-AGI-23e (50 %)1er (54 %)2e (52 %)
              AIME2e (95 %)1er (100 %)3e (92 %)

              Conclusion

              Claude 5 devrait dominer les benchmarks de programmation (SWE-bench, HumanEval) et de raisonnement scientifique (GPQA), tout en étant en retrait en mathématiques pures (AIME) et en raisonnement abstrait (ARC-AGI-2). Les performances réelles dépendront de votre cas d'usage spécifique — les scores de benchmark sont des indicateurs, pas des garanties.

Ready to Experience Claude 5?

Try Now