基准测试February 12, 2026

Anthropic Opus 4.6 vs Codex 5.3：基准大战

Claude Opus 4.6 和 Codex 5.3 的基准正面对比。SWE-bench、Terminal-Bench 和真实开发场景。

Opus 4.6 vs Codex 5.3：基准正面对决

两款 2026 年 2 月发布的顶级编码模型的详细基准对比。

总体基准

基准

Opus 4.6

Codex 5.3

优势

SWE-bench

80.8%

~78%

Opus

Terminal-Bench

68.4%

77.3%

Codex

OSWorld

72.7%

64.7%

Opus

关键发现

Opus 4.6 优势

更好的代码推理和调试

更高的安全漏洞检测率

更强的长上下文理解

更优的架构建议

Codex 5.3 优势

更快的执行速度

更好的终端任务表现

更低的成本

更强的 CLI 自动化

总结

两款模型各有所长。Opus 4.6 在推理和代码质量方面领先，Codex 5.3 在速度和终端任务方面胜出。

Ready to Experience Claude 5?

Back to All News