基准测试February 12, 2026
Anthropic Opus 4.6 vs Codex 5.3:基准大战
Claude Opus 4.6 和 Codex 5.3 的基准正面对比。SWE-bench、Terminal-Bench 和真实开发场景。
Opus 4.6 vs Codex 5.3:基准正面对决
两款 2026 年 2 月发布的顶级编码模型的详细基准对比。
总体基准
| 基准 | Opus 4.6 | Codex 5.3 | 优势 |
| SWE-bench | 80.8% | ~78% | Opus |
| Terminal-Bench | 68.4% | 77.3% | Codex |
| OSWorld | 72.7% | 64.7% | Opus |
关键发现
Opus 4.6 优势
- 更好的代码推理和调试
- 更高的安全漏洞检测率
- 更强的长上下文理解
- 更优的架构建议
Codex 5.3 优势
- 更快的执行速度
- 更好的终端任务表现
- 更低的成本
- 更强的 CLI 自动化
总结
两款模型各有所长。Opus 4.6 在推理和代码质量方面领先,Codex 5.3 在速度和终端任务方面胜出。