Claude Sonnet 4.6 vs Opus 4.6 : comparaison complète des benchmarks

En bref

Claude Sonnet 4.6 égale 98-99 % des performances d'Opus 4.6 en programmation et utilisation informatique à 1/5e du coût. Opus 4.6 ne se démarque significativement que sur le raisonnement expert (GPQA : 91,3 % contre 74,1 %) et la recherche d'aiguille dans une botte de foin. Optez par défaut pour Sonnet 4.6 ; montez en gamme vers Opus uniquement quand vous avez besoin d'une profondeur de raisonnement maximale.

La proposition de valeur

Avec Sonnet 4.6, Anthropic a essentiellement démocratisé l'IA de niveau phare. Ce qui aurait nécessité un modèle Opus à 15 $/75 $ il y a quelques mois est désormais réalisable à 3 $/15 $ — une réduction de coût de 5x avec une perte de qualité négligeable pour la plupart des applications.

Comparaison des benchmarks

Benchmark	Sonnet 4.6	Opus 4.6	Écart

SWE-bench Verified

79,6 %

80,8 %

1,2 %

OSWorld-Verified

72,5 %

72,7 %

0,2 %

GPQA Diamond

74,1 %

91,3 %

17,2 %

Math (AIME)

89 %

93 %

4 %

GDPval-AA (Bureau)

1633

1606

Sonnet gagne

Finance Agent v1.1

63,3 %

60,1 %

Sonnet gagne

Où Opus 4.6 justifie sa prime

Raisonnement expert (GPQA) : Les 91,3 % d'Opus contre les 74,1 % de Sonnet représentent un écart significatif. Pour les questions scientifiques de niveau doctorat, le diagnostic médical ou l'analyse juridique, Opus livre des résultats sensiblement meilleurs.

Récupération en contexte long : Sur le variant 8-aiguilles 1M de MRCR v2, Opus obtient 76 % contre ~18 % pour Sonnet.

Analyse de la tarification

Modèle	Entrée	Sortie	Coût mensuel (1M tokens/jour)

Sonnet 4.6

3 $

15 $

~540 $

Opus 4.6

15 $

75 $

~2 700 $

À grande échelle, la différence est dramatique : 2 160 $/mois d'économies en optant par défaut pour Sonnet.

Conclusion

Sonnet 4.6 a fait d'Opus 4.6 un outil spécialisé plutôt qu'un choix par défaut généraliste. Pour la plupart des applications, Sonnet offre des résultats indifférenciables à 20 % du coût. Réservez Opus pour le raisonnement expert, la récupération dans un contexte massif et la coordination multi-agents.