基准测试February 17, 2026
Claude Sonnet 4.6 在 OSWorld 上达到 72.5%,与 Opus 计算机使用性能持平
Sonnet 4.6 在计算机使用基准测试中与 Opus 4.6 持平,以中端定价实现复杂桌面自动化。
Sonnet 4.6 计算机使用能力达到 Opus 水平
Claude Sonnet 4.6 在 OSWorld-Verified 上达到 72.5%,与 Opus 4.6 的 72.7% 几乎持平。
OSWorld 基准
OSWorld 测试 AI 模型操作计算机的能力:
- 桌面导航
- 应用操作
- 文件管理
- 多步骤任务
对比数据
| 模型 | OSWorld | 差距 |
| Opus 4.6 | 72.7% | 基准线 |
| Sonnet 4.6 | 72.5% | -0.2% |
| Codex 5.3 | 64.7% | -8.0% |
实际意义
Sonnet 定价即可获得最强的计算机使用能力,使桌面自动化对更多开发者可及。
总结
Sonnet 4.6 在计算机使用方面与 Opus 几乎无差,这为 AI 自动化开辟了更多可能性。