突发新闻February 10, 2026

Codex 5.3 发布:Terminal-Bench 77.3%,SWE-Bench Pro 56.8%

OpenAI 于 2026 年 2 月 5 日发布 GPT-5.3-Codex,这是迄今为止最强大的智能编码模型,在终端和编码基准测试中取得突破性成绩。

OpenAI 发布最强编码模型

2026 年 2 月 5 日,OpenAI 发布了 GPT-5.3-Codex,称其为"迄今为止最强大的智能编码模型"。该模型在前沿编码性能和通用推理能力方面均有提升,同时比前代快 25%。

基准测试表现

Terminal-Bench 2.0: 77.3% - 在终端驱动任务中领先所有模型 SWE-Bench Pro(公开): 跨四种编程语言准确率达 56.8% OSWorld-Verified: 64.7% - 强大的计算机操作能力 速度: 比 GPT-5.2-Codex 快 25%,Token 效率提升

技术创新

自举式开发

值得注意的是,GPT-5.3-Codex 参与了自身的开发过程。Codex 团队使用早期版本来:

  • 调试自身训练流程
  • 管理部署基础设施
  • 诊断和修复测试结果
  • 优化推理性能

增强能力

智能编码: 以最少人工干预实现自主多步骤任务执行 终端精通: 超越以往模型的原生级命令行操作能力 多语言支持: 支持 Python、JavaScript、TypeScript、Java、C++、Go 和 Rust 的生产级代码生成 Token 效率: 在保持质量的同时使用更少输出 Token,降低 API 成本

安全性与安全保障

GPT-5.3-Codex 是首个在准备框架下被定为"高级"的 OpenAI 模型,特别是在网络安全能力方面。增强的安全措施在防止恶意代码生成的同时,保留了合法安全研究功能。

可用性与定价

ChatGPT 用户: 现已支持 ChatGPT Plus、Team 和 Enterprise 计划 API 访问: 每百万 Token $10/$30(输入/输出) 平台集成: ChatGPT 应用、CLI、IDE 扩展和 Web 界面 云服务商: AWS Bedrock 和 Azure OpenAI Service(2026 年 Q1)

性能对比

模型Terminal-BenchSWE-Bench Pro速度价格(输入)
Codex 5.377.3%56.8%1.8s$10/M
Claude Opus 4.668.4%54.2%3.2s$15/M
Gemini 3 Pro64.1%48.3%2.4s$7/M

开发者反馈

早期采用者反馈 Codex 5.3 在以下方面表现出色:

  • 后端服务开发
  • 终端自动化和 DevOps 任务
  • 大批量代码生成
  • 快速迭代修复 Bug

部分开发者指出 Claude Code 在以下方面仍有优势:

  • 深度架构推理
  • 长上下文代码库理解
  • UI/UX 设计建议

适合使用 Codex 5.3 的场景

  • 工作流中速度至关重要
  • 主要使用终端/CLI 工具
  • 需要高性价比的大批量生成
  • 构建后端服务和 API
  • 需要首次尝试即可靠无 Bug 的代码

总结

GPT-5.3-Codex 代表了 AI 编码能力的重大飞跃,特别是在终端驱动和自主代理工作流方面。其性能、速度和竞争力定价的组合使其成为开发团队的理想选择。

该模型参与自身开发的能力表明,我们正在进入 AI 系统积极参与自身开发的时代——这是一个意义深远的范式转变。

Ready to Experience Claude 5?

Try Now