معيارFebruary 17, 2026

Claude Sonnet 4.6 يحقق 79.6% على SWE-bench، على بُعد 1.2% من Opus 4.6

النموذج الجديد يقلص الفجوة مع النموذج الرائد في معايير البرمجة، محققاً أداءً رائداً في الصناعة بتسعير الطبقة المتوسطة.

Sonnet 4.6 يحقق 79.6% على SWE-bench

على بُعد 1.2% فقط من Opus 4.6.

السياق التاريخي

النموذجSWE-benchالتاريخ
Sonnet 3.549.0%يونيو 2024
Sonnet 472.7%مارس 2025
Sonnet 4.577.2%سبتمبر 2025
Sonnet 4.679.6%فبراير 2026

في 20 شهراً، تحسن أداء Sonnet بأكثر من 30 نقطة مئوية.

ماذا تعني الفجوة

79.6% مقابل 80.8% - فارق 1.2% فقط:

  • كلاهما يحل ~4 من 5 مشكلات حقيقية
  • التباين في التشغيلات الفردية يتجاوز الفجوة
  • فرق التكلفة (5x) أكبر بكثير من فرق القدرة

عرض القيمة

100 مشكلة SWE-bench:

  • Sonnet 4.6: ~$7
  • Opus 4.6: ~$35
  • 5x تكلفة لتحسين 1.5%

الخلاصة

Sonnet 4.6 جعل أداء البرمجة المتميز سلعة عامة. Sonnet افتراضياً، Opus استثنائياً.

Ready to Experience Claude 5?

Try Now