Claude Sonnet 4.6 完整指南:功能、基准与定价
全面了解 Claude Sonnet 4.6:100 万 token 上下文、79.6% SWE-bench 得分、自适应思考,以及 Sonnet 定价下的 Opus 级性能。
摘要
Claude Sonnet 4.6 于 2026 年 2 月 17 日发布,以五分之一的成本提供接近 Opus 的性能。核心亮点:79.6% SWE-bench Verified、72.5% OSWorld、100 万 token 上下文窗口(测试版),以及动态推理的自适应思考引擎。定价保持 $3/$15 每百万 token——与 Sonnet 4.5 相同。
发布概览
Anthropic 在 2026 年 2 月 17 日发布 Claude Sonnet 4.6——距 Opus 4.6 发布仅 12 天。该模型现已成为 Claude.ai 免费和 Pro 用户的默认选择,可通过 Claude Code、Claude Cowork、API 及所有主要云平台(AWS Bedrock、Google Vertex AI、Microsoft Foundry)使用。
核心功能
100 万 Token 上下文窗口(测试版)
Sonnet 4.6 支持 100 万 token 上下文窗口——约 75 万字或 5-10 个完整代码库。搭配全新的上下文压缩功能,在接近限制时自动总结较旧的上下文,实现实质上无限的对话。
自适应思考引擎
取代旧的二元 "扩展思考" 模式,自适应思考允许模型动态决定需要多少推理。使用新的 effort 参数,开发者可以根据任务复杂度平衡速度、成本和智能。
增强的计算机使用
Sonnet 4.6 在 OSWorld-Verified 上得分 72.5%——距 Opus 4.6 的 72.7% 仅差 0.2%。这使其成为最强大的中端 agent 计算机任务模型。
基准性能
| 基准测试 | Sonnet 4.6 | Opus 4.6 | Sonnet 4.5 |
|---|
| SWE-bench Verified | 79.6% | 80.8% | 77.2% |
| OSWorld-Verified | 72.5% | 72.7% | 61.4% |
| GPQA Diamond | 74.1% | 91.3% | 65.0% |
| 数学(AIME) | 89% | 93% | 62% |
| GDPval-AA(办公任务) | 1633 Elo | 1606 Elo | - |
值得注意的是,Sonnet 4.6 在真实办公任务(GDPval-AA)和 agent 金融分析(63.3% vs 60.1%)上超越了 Opus 4.6。
用户偏好
在早期测试中:
- 用户 70% 的时间更偏好 Sonnet 4.6 而非 Sonnet 4.5
- 用户 59% 的时间更偏好 Sonnet 4.6 而非 Opus 4.5
定价
| 模型 | 输入($/M) | 输出($/M) |
|---|
| Claude Sonnet 4.6 | $3 | $15 |
| Claude Opus 4.6 | $15 | $75 |
Sonnet 4.6 以 20% 的成本提供约 98-99% 的 Opus 性能。额外节省:提示缓存 90%,批量处理 50%。
结论
Claude Sonnet 4.6 代表了 AI 的新平衡点:旗舰级性能配中端定价。对大多数开发者来说,它应该是默认选择,仅在需要最大推理深度的边缘案例时使用 Opus。