突发新闻February 9, 2026
Claude Opus 4.5 发布:SWE-bench 得分 80.9%,超越所有人类与 AI 模型
Anthropic 发布 Claude Opus 4.5,SWE-bench 得分达到突破性的 80.9%,首次在软件工程任务中超越人类水平。
Anthropic 的里程碑时刻
Anthropic 发布了 Claude Opus 4.5,在 SWE-bench Verified 上取得了突破性的 80.9% 分数——首次在软件工程基准测试中超越人类水平表现。
基准测试亮点
SWE-bench Verified:80.9%
这意味着:
- 每 100 个 GitHub 真实问题,Claude 自主解决 81 个
- 超越之前最高分 15+ 个百分点
- 首次超越人类工程师平均水平
其他基准
- HumanEval: 98.1%
- MBPP: 96.4%
- GPQA Diamond: 87.3%
为什么这很重要
软件工程的转折点
SWE-bench 测试的是真实世界的软件工程能力——不是简单的编码题,而是实际的 GitHub 问题修复,涉及:
- 理解复杂代码库
- 诊断 Bug 根因
- 编写正确的修复代码
- 确保不破坏现有功能
行业影响
- 开发团队生产力预计提升 30-50%
- 初级开发者的 AI 辅助将更加有效
- 代码审查和安全检测质量大幅提升
技术创新
30 小时聚焦窗口
Claude Opus 4.5 引入了 30 小时聚焦窗口功能:
- 跨会话保持上下文
- 减少重复的上下文设置
- 支持复杂的多日项目
200K Token 上下文
- 完整分析大型代码库
- 跨文件推理能力
- 更好的架构理解
定价
| 层级 | 输入 ($/M) | 输出 ($/M) |
| Opus 4.5 | $15 | $75 |
| Sonnet 4.5 | $3 | $15 |
竞争格局
| 模型 | SWE-bench | 发布日期 |
| Claude Opus 4.5 | 80.9% | 2025 年 11 月 |
| GPT-5.1 | 76.3% | 2025 年 11 月 |
| Gemini 3 Pro | 71.8% | 2025 年 11 月 |
总结
Claude Opus 4.5 的 80.9% SWE-bench 分数标志着 AI 软件工程的重要里程碑。这是 AI 模型首次在标准化测试中超越人类工程师的平均水平,预示着 AI 辅助开发的新时代。