Claude Sonnet 4.6 完整指南：功能、基准与定价

摘要

Claude Sonnet 4.6 于 2026 年 2 月 17 日发布，以五分之一的成本提供接近 Opus 的性能。核心亮点：79.6% SWE-bench Verified、72.5% OSWorld、100 万 token 上下文窗口（测试版），以及动态推理的自适应思考引擎。定价保持 $3/$15 每百万 token——与 Sonnet 4.5 相同。

发布概览

Anthropic 在 2026 年 2 月 17 日发布 Claude Sonnet 4.6——距 Opus 4.6 发布仅 12 天。该模型现已成为 Claude.ai 免费和 Pro 用户的默认选择，可通过 Claude Code、Claude Cowork、API 及所有主要云平台（AWS Bedrock、Google Vertex AI、Microsoft Foundry）使用。

核心功能

100 万 Token 上下文窗口（测试版）

Sonnet 4.6 支持 100 万 token 上下文窗口——约 75 万字或 5-10 个完整代码库。搭配全新的上下文压缩功能，在接近限制时自动总结较旧的上下文，实现实质上无限的对话。

自适应思考引擎

取代旧的二元 "扩展思考" 模式，自适应思考允许模型动态决定需要多少推理。使用新的 effort 参数，开发者可以根据任务复杂度平衡速度、成本和智能。

增强的计算机使用

Sonnet 4.6 在 OSWorld-Verified 上得分 72.5%——距 Opus 4.6 的 72.7% 仅差 0.2%。这使其成为最强大的中端 agent 计算机任务模型。

基准性能

基准测试	Sonnet 4.6	Opus 4.6	Sonnet 4.5

SWE-bench Verified

79.6%

80.8%

77.2%

OSWorld-Verified

72.5%

72.7%

61.4%

GPQA Diamond

74.1%

91.3%

65.0%

数学（AIME）

89%

93%

62%

GDPval-AA（办公任务）

1633 Elo

1606 Elo

值得注意的是，Sonnet 4.6 在真实办公任务（GDPval-AA）和 agent 金融分析（63.3% vs 60.1%）上超越了 Opus 4.6。

用户偏好

在早期测试中：

用户 70% 的时间更偏好 Sonnet 4.6 而非 Sonnet 4.5

用户 59% 的时间更偏好 Sonnet 4.6 而非 Opus 4.5

定价

模型	输入（$/M）	输出（$/M）

Claude Sonnet 4.6

$15

Claude Opus 4.6

$15

$75

Sonnet 4.6 以 20% 的成本提供约 98-99% 的 Opus 性能。额外节省：提示缓存 90%，批量处理 50%。

结论

Claude Sonnet 4.6 代表了 AI 的新平衡点：旗舰级性能配中端定价。对大多数开发者来说，它应该是默认选择，仅在需要最大推理深度的边缘案例时使用 Opus。

摘要