突发新闻February 10, 2026
Codex 5.3 发布:Terminal-Bench 77.3%,SWE-Bench Pro 56.8%
OpenAI 于 2026 年 2 月 5 日发布 GPT-5.3-Codex,这是迄今为止最强大的智能编码模型,在终端和编码基准测试中取得突破性成绩。
OpenAI 发布最强编码模型
2026 年 2 月 5 日,OpenAI 发布了 GPT-5.3-Codex,称其为"迄今为止最强大的智能编码模型"。该模型在前沿编码性能和通用推理能力方面均有提升,同时比前代快 25%。
基准测试表现
Terminal-Bench 2.0: 77.3% - 在终端驱动任务中领先所有模型 SWE-Bench Pro(公开): 跨四种编程语言准确率达 56.8% OSWorld-Verified: 64.7% - 强大的计算机操作能力 速度: 比 GPT-5.2-Codex 快 25%,Token 效率提升技术创新
自举式开发
值得注意的是,GPT-5.3-Codex 参与了自身的开发过程。Codex 团队使用早期版本来:
- 调试自身训练流程
- 管理部署基础设施
- 诊断和修复测试结果
- 优化推理性能
增强能力
智能编码: 以最少人工干预实现自主多步骤任务执行 终端精通: 超越以往模型的原生级命令行操作能力 多语言支持: 支持 Python、JavaScript、TypeScript、Java、C++、Go 和 Rust 的生产级代码生成 Token 效率: 在保持质量的同时使用更少输出 Token,降低 API 成本安全性与安全保障
GPT-5.3-Codex 是首个在准备框架下被定为"高级"的 OpenAI 模型,特别是在网络安全能力方面。增强的安全措施在防止恶意代码生成的同时,保留了合法安全研究功能。
可用性与定价
ChatGPT 用户: 现已支持 ChatGPT Plus、Team 和 Enterprise 计划 API 访问: 每百万 Token $10/$30(输入/输出) 平台集成: ChatGPT 应用、CLI、IDE 扩展和 Web 界面 云服务商: AWS Bedrock 和 Azure OpenAI Service(2026 年 Q1)性能对比
| 模型 | Terminal-Bench | SWE-Bench Pro | 速度 | 价格(输入) |
| Codex 5.3 | 77.3% | 56.8% | 1.8s | $10/M |
| Claude Opus 4.6 | 68.4% | 54.2% | 3.2s | $15/M |
| Gemini 3 Pro | 64.1% | 48.3% | 2.4s | $7/M |
开发者反馈
早期采用者反馈 Codex 5.3 在以下方面表现出色:
- 后端服务开发
- 终端自动化和 DevOps 任务
- 大批量代码生成
- 快速迭代修复 Bug
部分开发者指出 Claude Code 在以下方面仍有优势:
- 深度架构推理
- 长上下文代码库理解
- UI/UX 设计建议
适合使用 Codex 5.3 的场景
- 工作流中速度至关重要
- 主要使用终端/CLI 工具
- 需要高性价比的大批量生成
- 构建后端服务和 API
- 需要首次尝试即可靠无 Bug 的代码
总结
GPT-5.3-Codex 代表了 AI 编码能力的重大飞跃,特别是在终端驱动和自主代理工作流方面。其性能、速度和竞争力定价的组合使其成为开发团队的理想选择。
该模型参与自身开发的能力表明,我们正在进入 AI 系统积极参与自身开发的时代——这是一个意义深远的范式转变。