BenchmarkFebruary 17, 2026

Claude Sonnet 4.6 Atteint 79,6 % sur SWE-bench, à 1,2 % d'Opus 4.6

Le nouveau modèle Sonnet réduit l'écart avec le modèle phare sur les benchmarks de codage, atteignant des performances de pointe aux tarifs mid-tier.

Sonnet Atteint le Territoire Phare

Le score de 79,6 % de Sonnet 4.6 sur SWE-bench Verified le place à seulement 1,2 point d'Opus 4.6 (80,8 %).

Contexte Historique

ModèleSWE-bench VerifiedDate
Sonnet 3.549,0 %Juin 2024
Sonnet 472,7 %Mars 2025
Sonnet 4.577,2 %Sep. 2025
Sonnet 4.679,6 %Fév. 2026

En 20 mois, la performance SWE-bench de Sonnet a augmenté de plus de 30 points.

Paysage Concurrentiel

ModèleSWE-benchPrix (Entrée/Sortie)
Opus 4.680,8 %15 $/75 $
Sonnet 4.679,6 %3 $/15 $
GPT-5.2~76 %1,75 $/14 $

La Proposition de Valeur

À 3 $/15 $ vs 15 $/75 $, Sonnet 4.6 offre 5x moins cher pour seulement 1,2 % de différence en capacité. Pour 99 % des tâches de codage, la différence est statistiquement insignifiante.

Conclusion

Sonnet 4.6 a effectivement banalisé les performances de codage de niveau phare. Pour la plupart des équipes, le choix rationnel est Sonnet par défaut, Opus par exception.

Ready to Experience Claude 5?

Try Now