基准测试February 17, 2026

Claude Sonnet 4.6 在 SWE-bench 上达到 79.6%,与 Opus 4.6 相差仅 1.2%

新 Sonnet 模型在编码基准测试中缩短与旗舰模型的差距,以中端定价实现行业领先性能。

Sonnet 4.6:编码性能逼近 Opus

Claude Sonnet 4.6 在 SWE-bench Verified 上达到 79.6%,与 Opus 4.6 的 80.8% 仅差 1.2 个百分点。

数据分析

模型SWE-bench定价(输入)性价比
Opus 4.680.8%$15/M基准线
Sonnet 4.679.6%$3/M5x

关键洞察

1.2% 的差距意味着每 100 个 GitHub 问题仅差 1 个。但成本差距是 5 倍。

对市场的影响

这挑战了"需要旗舰模型才能获得最佳编码性能"的观念。

总结

对于绝大多数编码任务,Sonnet 4.6 提供了与 Opus 4.6 几乎相同的结果,但成本仅为五分之一。

Ready to Experience Claude 5?

Try Now