BenchmarkFebruary 17, 2026
Claude Sonnet 4.6 Atteint 79,6 % sur SWE-bench, à 1,2 % d'Opus 4.6
Le nouveau modèle Sonnet réduit l'écart avec le modèle phare sur les benchmarks de codage, atteignant des performances de pointe aux tarifs mid-tier.
Sonnet Atteint le Territoire Phare
Le score de 79,6 % de Sonnet 4.6 sur SWE-bench Verified le place à seulement 1,2 point d'Opus 4.6 (80,8 %).
Contexte Historique
| Modèle | SWE-bench Verified | Date |
| Sonnet 3.5 | 49,0 % | Juin 2024 |
| Sonnet 4 | 72,7 % | Mars 2025 |
| Sonnet 4.5 | 77,2 % | Sep. 2025 |
| Sonnet 4.6 | 79,6 % | Fév. 2026 |
En 20 mois, la performance SWE-bench de Sonnet a augmenté de plus de 30 points.
Paysage Concurrentiel
| Modèle | SWE-bench | Prix (Entrée/Sortie) |
| Opus 4.6 | 80,8 % | 15 $/75 $ |
| Sonnet 4.6 | 79,6 % | 3 $/15 $ |
| GPT-5.2 | ~76 % | 1,75 $/14 $ |
La Proposition de Valeur
À 3 $/15 $ vs 15 $/75 $, Sonnet 4.6 offre 5x moins cher pour seulement 1,2 % de différence en capacité. Pour 99 % des tâches de codage, la différence est statistiquement insignifiante.
Conclusion
Sonnet 4.6 a effectivement banalisé les performances de codage de niveau phare. Pour la plupart des équipes, le choix rationnel est Sonnet par défaut, Opus par exception.