معيارFebruary 17, 2026
Claude Sonnet 4.6 يحقق 79.6% على SWE-bench، على بُعد 1.2% من Opus 4.6
النموذج الجديد يقلص الفجوة مع النموذج الرائد في معايير البرمجة، محققاً أداءً رائداً في الصناعة بتسعير الطبقة المتوسطة.
Sonnet 4.6 يحقق 79.6% على SWE-bench
على بُعد 1.2% فقط من Opus 4.6.
السياق التاريخي
| النموذج | SWE-bench | التاريخ |
| Sonnet 3.5 | 49.0% | يونيو 2024 |
| Sonnet 4 | 72.7% | مارس 2025 |
| Sonnet 4.5 | 77.2% | سبتمبر 2025 |
| Sonnet 4.6 | 79.6% | فبراير 2026 |
في 20 شهراً، تحسن أداء Sonnet بأكثر من 30 نقطة مئوية.
ماذا تعني الفجوة
79.6% مقابل 80.8% - فارق 1.2% فقط:
- كلاهما يحل ~4 من 5 مشكلات حقيقية
- التباين في التشغيلات الفردية يتجاوز الفجوة
- فرق التكلفة (5x) أكبر بكثير من فرق القدرة
عرض القيمة
100 مشكلة SWE-bench:
- Sonnet 4.6: ~$7
- Opus 4.6: ~$35
- 5x تكلفة لتحسين 1.5%
الخلاصة
Sonnet 4.6 جعل أداء البرمجة المتميز سلعة عامة. Sonnet افتراضياً، Opus استثنائياً.