Claude Sonnet 4.6 Atteint 79,6 % sur SWE-bench, à 1,2 % d'Opus 4.6

Sonnet Atteint le Territoire Phare

Le score de 79,6 % de Sonnet 4.6 sur SWE-bench Verified le place à seulement 1,2 point d'Opus 4.6 (80,8 %).

Contexte Historique

Modèle

SWE-bench Verified

Date

Sonnet 3.5

49,0 %

Juin 2024

Sonnet 4

72,7 %

Mars 2025

Sonnet 4.5

77,2 %

Sep. 2025

Sonnet 4.6

79,6 %

Fév. 2026

En 20 mois, la performance SWE-bench de Sonnet a augmenté de plus de 30 points.

Paysage Concurrentiel

Modèle

SWE-bench

Prix (Entrée/Sortie)

Opus 4.6

80,8 %

15 $/75 $

Sonnet 4.6

79,6 %

3 $/15 $

GPT-5.2

~76 %

1,75 $/14 $

La Proposition de Valeur

À 3 $/15 $ vs 15 $/75 $, Sonnet 4.6 offre 5x moins cher pour seulement 1,2 % de différence en capacité. Pour 99 % des tâches de codage, la différence est statistiquement insignifiante.

Conclusion

Sonnet 4.6 a effectivement banalisé les performances de codage de niveau phare. Pour la plupart des équipes, le choix rationnel est Sonnet par défaut, Opus par exception.

Sonnet Atteint le Territoire Phare

Contexte Historique

Paysage Concurrentiel

La Proposition de Valeur

Conclusion

Ready to Experience Claude 5?