基准测试February 17, 2026

Claude Sonnet 4.6 在 SWE-bench 上达到 79.6%，与 Opus 4.6 相差仅 1.2%

新 Sonnet 模型在编码基准测试中缩短与旗舰模型的差距，以中端定价实现行业领先性能。

Sonnet 4.6：编码性能逼近 Opus

Claude Sonnet 4.6 在 SWE-bench Verified 上达到 79.6%，与 Opus 4.6 的 80.8% 仅差 1.2 个百分点。

数据分析

模型

SWE-bench

定价（输入）

性价比

Opus 4.6

80.8%

$15/M

基准线

Sonnet 4.6

79.6%

$3/M

5x

关键洞察

1.2% 的差距意味着每 100 个 GitHub 问题仅差 1 个。但成本差距是 5 倍。

对市场的影响

这挑战了"需要旗舰模型才能获得最佳编码性能"的观念。

总结

对于绝大多数编码任务，Sonnet 4.6 提供了与 Opus 4.6 几乎相同的结果，但成本仅为五分之一。

Ready to Experience Claude 5?

Back to All News