基准测试February 17, 2026

Claude Sonnet 4.6 在 OSWorld 上达到 72.5%,与 Opus 计算机使用性能持平

Sonnet 4.6 在计算机使用基准测试中与 Opus 4.6 持平,以中端定价实现复杂桌面自动化。

Sonnet 4.6 计算机使用能力达到 Opus 水平

Claude Sonnet 4.6 在 OSWorld-Verified 上达到 72.5%,与 Opus 4.6 的 72.7% 几乎持平。

OSWorld 基准

OSWorld 测试 AI 模型操作计算机的能力:

  • 桌面导航
  • 应用操作
  • 文件管理
  • 多步骤任务

对比数据

模型OSWorld差距
Opus 4.672.7%基准线
Sonnet 4.672.5%-0.2%
Codex 5.364.7%-8.0%

实际意义

Sonnet 定价即可获得最强的计算机使用能力,使桌面自动化对更多开发者可及。

总结

Sonnet 4.6 在计算机使用方面与 Opus 几乎无差,这为 AI 自动化开辟了更多可能性。

Ready to Experience Claude 5?

Try Now