基准测试February 17, 2026
Claude Sonnet 4.6 在 SWE-bench 上达到 79.6%,与 Opus 4.6 相差仅 1.2%
新 Sonnet 模型在编码基准测试中缩短与旗舰模型的差距,以中端定价实现行业领先性能。
Sonnet 4.6:编码性能逼近 Opus
Claude Sonnet 4.6 在 SWE-bench Verified 上达到 79.6%,与 Opus 4.6 的 80.8% 仅差 1.2 个百分点。
数据分析
| 模型 | SWE-bench | 定价(输入) | 性价比 |
| Opus 4.6 | 80.8% | $15/M | 基准线 |
| Sonnet 4.6 | 79.6% | $3/M | 5x |
关键洞察
1.2% 的差距意味着每 100 个 GitHub 问题仅差 1 个。但成本差距是 5 倍。
对市场的影响
这挑战了"需要旗舰模型才能获得最佳编码性能"的观念。
总结
对于绝大多数编码任务,Sonnet 4.6 提供了与 Opus 4.6 几乎相同的结果,但成本仅为五分之一。