Codex 5.3 发布：Terminal-Bench 77.3%，SWE-Bench Pro 56.8%

OpenAI 发布最强编码模型

2026 年 2 月 5 日，OpenAI 发布了 GPT-5.3-Codex，称其为"迄今为止最强大的智能编码模型"。该模型在前沿编码性能和通用推理能力方面均有提升，同时比前代快 25%。

基准测试表现

Terminal-Bench 2.0： 77.3% - 在终端驱动任务中领先所有模型 SWE-Bench Pro（公开）： 跨四种编程语言准确率达 56.8% OSWorld-Verified： 64.7% - 强大的计算机操作能力 速度： 比 GPT-5.2-Codex 快 25%，Token 效率提升

技术创新

自举式开发

值得注意的是，GPT-5.3-Codex 参与了自身的开发过程。Codex 团队使用早期版本来：

调试自身训练流程

管理部署基础设施

诊断和修复测试结果

优化推理性能

增强能力

智能编码： 以最少人工干预实现自主多步骤任务执行 终端精通： 超越以往模型的原生级命令行操作能力 多语言支持： 支持 Python、JavaScript、TypeScript、Java、C++、Go 和 Rust 的生产级代码生成 Token 效率： 在保持质量的同时使用更少输出 Token，降低 API 成本

安全性与安全保障

GPT-5.3-Codex 是首个在准备框架下被定为"高级"的 OpenAI 模型，特别是在网络安全能力方面。增强的安全措施在防止恶意代码生成的同时，保留了合法安全研究功能。

可用性与定价

ChatGPT 用户： 现已支持 ChatGPT Plus、Team 和 Enterprise 计划 API 访问： 每百万 Token $10/$30（输入/输出） 平台集成： ChatGPT 应用、CLI、IDE 扩展和 Web 界面 云服务商： AWS Bedrock 和 Azure OpenAI Service（2026 年 Q1）

性能对比

模型

Terminal-Bench

SWE-Bench Pro

速度

价格（输入）

Codex 5.3

77.3%

56.8%

1.8s

$10/M

Claude Opus 4.6

68.4%

54.2%

3.2s

$15/M

Gemini 3 Pro

64.1%

48.3%

2.4s

$7/M

开发者反馈

早期采用者反馈 Codex 5.3 在以下方面表现出色：

后端服务开发

终端自动化和 DevOps 任务

大批量代码生成

快速迭代修复 Bug

部分开发者指出 Claude Code 在以下方面仍有优势：

深度架构推理

长上下文代码库理解

UI/UX 设计建议

适合使用 Codex 5.3 的场景

工作流中速度至关重要

主要使用终端/CLI 工具

需要高性价比的大批量生成

构建后端服务和 API

需要首次尝试即可靠无 Bug 的代码

总结

GPT-5.3-Codex 代表了 AI 编码能力的重大飞跃，特别是在终端驱动和自主代理工作流方面。其性能、速度和竞争力定价的组合使其成为开发团队的理想选择。

该模型参与自身开发的能力表明，我们正在进入 AI 系统积极参与自身开发的时代——这是一个意义深远的范式转变。