基准测试February 17, 2026

Claude Sonnet 4.6 在 OSWorld 上达到 72.5%，与 Opus 计算机使用性能持平

Sonnet 4.6 在计算机使用基准测试中与 Opus 4.6 持平，以中端定价实现复杂桌面自动化。

Sonnet 4.6 计算机使用能力达到 Opus 水平

Claude Sonnet 4.6 在 OSWorld-Verified 上达到 72.5%，与 Opus 4.6 的 72.7% 几乎持平。

OSWorld 基准

OSWorld 测试 AI 模型操作计算机的能力：

桌面导航

应用操作

文件管理

多步骤任务

对比数据

模型

OSWorld

差距

Opus 4.6

72.7%

基准线

Sonnet 4.6

72.5%

-0.2%

Codex 5.3

64.7%

-8.0%

实际意义

Sonnet 定价即可获得最强的计算机使用能力，使桌面自动化对更多开发者可及。

总结

Sonnet 4.6 在计算机使用方面与 Opus 几乎无差，这为 AI 自动化开辟了更多可能性。

Ready to Experience Claude 5?

Back to All News