Claude Opus 4.5 发布：SWE-bench 得分 80.9%，超越所有人类与 AI 模型

Anthropic 的里程碑时刻

Anthropic 发布了 Claude Opus 4.5，在 SWE-bench Verified 上取得了突破性的 80.9% 分数——首次在软件工程基准测试中超越人类水平表现。

基准测试亮点

SWE-bench Verified：80.9%

这意味着：

每 100 个 GitHub 真实问题，Claude 自主解决 81 个

超越之前最高分 15+ 个百分点

首次超越人类工程师平均水平

其他基准

HumanEval： 98.1%

MBPP： 96.4%

GPQA Diamond： 87.3%

为什么这很重要

软件工程的转折点

SWE-bench 测试的是真实世界的软件工程能力——不是简单的编码题，而是实际的 GitHub 问题修复，涉及：

理解复杂代码库

诊断 Bug 根因

编写正确的修复代码

确保不破坏现有功能

行业影响

开发团队生产力预计提升 30-50%

初级开发者的 AI 辅助将更加有效

代码审查和安全检测质量大幅提升

技术创新

30 小时聚焦窗口

Claude Opus 4.5 引入了 30 小时聚焦窗口功能：

跨会话保持上下文

减少重复的上下文设置

支持复杂的多日项目

200K Token 上下文

完整分析大型代码库

跨文件推理能力

更好的架构理解

定价

层级

输入 ($/M)

输出 ($/M)

Opus 4.5

$15

$75

Sonnet 4.5

$15

竞争格局

模型

SWE-bench

发布日期

Claude Opus 4.5

80.9%

2025 年 11 月

GPT-5.1

76.3%

2025 年 11 月

Gemini 3 Pro

71.8%

2025 年 11 月

总结

Claude Opus 4.5 的 80.9% SWE-bench 分数标志着 AI 软件工程的重要里程碑。这是 AI 模型首次在标准化测试中超越人类工程师的平均水平，预示着 AI 辅助开发的新时代。

Anthropic 的里程碑时刻

基准测试亮点

SWE-bench Verified：80.9%

其他基准

为什么这很重要

软件工程的转折点

行业影响

技术创新

30 小时聚焦窗口

200K Token 上下文

定价

竞争格局

总结

Ready to Experience Claude 5?