教程
Claude Sonnet 4.6 计算机使用:完整实施指南
使用 Claude Sonnet 4.6 构建计算机使用智能体:72.5% OSWorld 得分、实现模式、安全注意事项及真实应用场景。
February 2026
摘要
Claude Sonnet 4.6 在 OSWorld-Verified 上达到 72.5%——以五分之一的成本匹配 Opus 4.6 的 72.7%。计算机使用功能让 AI 智能体能控制桌面、浏览网页、填写表单并自动化复杂工作流。通过 API 使用,需配合适当的安全控制。
什么是计算机使用?
计算机使用允许 Claude:
- 查看截图并理解 UI 元素
- 控制鼠标移动和点击
- 输入键盘内容
- 导航应用和网站
- 自主完成多步骤工作流
- 沙箱化:在虚拟机或容器中运行,与宿主系统隔离
- 确认机制:敏感操作需人工确认
- 黑名单:阻止访问敏感 URL、应用或目录
- 监控:记录所有操作用于审计
- 速率限制:通过操作限制防止失控的智能体
- 清晰指令:具体说明 UI 元素和预期结果
- 分块任务:将复杂工作流分解为独立步骤
- 错误恢复:包含处理意外状态的指令
- 截图频率:重大操作后请求新截图
- 超时处理:为每个任务设置最大操作次数
基准性能
| 模型 | OSWorld-Verified | 费用(输入/输出) |
|---|
| Sonnet 4.6 | 72.5% | $3/$15 |
| Opus 4.6 | 72.7% | $15/$75 |
| GPT-5.2 | 约 65% | $1.75/$14 |
| Gemini 3 Pro | 约 60% | $1.25/$5 |
Sonnet 4.6 以 Sonnet 定价提供 Opus 级的计算机使用能力。
安全注意事项
必要的安全措施
应用场景
1. 表单自动化
自动填写报销单、客户注册表单等。
2. 数据提取
从 PDF 报告中提取数据并粘贴到电子表格中。
3. 测试自动化
导航到登录页面,测试凭据,验证仪表板加载并报告错误。
最佳实践
结论
Sonnet 4.6 的计算机使用能力以可承受的价格实现了复杂的桌面自动化。配合适当的安全控制,它可以将手动工作流转变为自动化流程——从表单填写到数据提取到 QA 测试。