指南

Claude Sonnet 4.6 完整指南:功能、基准与定价

全面了解 Claude Sonnet 4.6:100 万 token 上下文、79.6% SWE-bench 得分、自适应思考,以及 Sonnet 定价下的 Opus 级性能。

February 2026

摘要

Claude Sonnet 4.6 于 2026 年 2 月 17 日发布,以五分之一的成本提供接近 Opus 的性能。核心亮点:79.6% SWE-bench Verified、72.5% OSWorld、100 万 token 上下文窗口(测试版),以及动态推理的自适应思考引擎。定价保持 $3/$15 每百万 token——与 Sonnet 4.5 相同。

发布概览

Anthropic 在 2026 年 2 月 17 日发布 Claude Sonnet 4.6——距 Opus 4.6 发布仅 12 天。该模型现已成为 Claude.ai 免费和 Pro 用户的默认选择,可通过 Claude Code、Claude Cowork、API 及所有主要云平台(AWS Bedrock、Google Vertex AI、Microsoft Foundry)使用。

核心功能

100 万 Token 上下文窗口(测试版)

Sonnet 4.6 支持 100 万 token 上下文窗口——约 75 万字或 5-10 个完整代码库。搭配全新的上下文压缩功能,在接近限制时自动总结较旧的上下文,实现实质上无限的对话。

自适应思考引擎

取代旧的二元 "扩展思考" 模式,自适应思考允许模型动态决定需要多少推理。使用新的 effort 参数,开发者可以根据任务复杂度平衡速度、成本和智能。

增强的计算机使用

Sonnet 4.6 在 OSWorld-Verified 上得分 72.5%——距 Opus 4.6 的 72.7% 仅差 0.2%。这使其成为最强大的中端 agent 计算机任务模型。

基准性能

基准测试Sonnet 4.6Opus 4.6Sonnet 4.5
SWE-bench Verified79.6%80.8%77.2%
OSWorld-Verified72.5%72.7%61.4%
GPQA Diamond74.1%91.3%65.0%
数学(AIME)89%93%62%
GDPval-AA(办公任务)1633 Elo1606 Elo-

值得注意的是,Sonnet 4.6 在真实办公任务(GDPval-AA)和 agent 金融分析(63.3% vs 60.1%)上超越了 Opus 4.6。

用户偏好

在早期测试中:

    • 用户 70% 的时间更偏好 Sonnet 4.6 而非 Sonnet 4.5
      • 用户 59% 的时间更偏好 Sonnet 4.6 而非 Opus 4.5

      定价

      模型输入($/M)输出($/M)
      Claude Sonnet 4.6$3$15
      Claude Opus 4.6$15$75

      Sonnet 4.6 以 20% 的成本提供约 98-99% 的 Opus 性能。额外节省:提示缓存 90%,批量处理 50%。

      结论

      Claude Sonnet 4.6 代表了 AI 的新平衡点:旗舰级性能配中端定价。对大多数开发者来说,它应该是默认选择,仅在需要最大推理深度的边缘案例时使用 Opus。

Ready to Experience Claude 5?

Try Now