突发新闻February 9, 2026

Claude Opus 4.5 发布:SWE-bench 得分 80.9%,超越所有人类与 AI 模型

Anthropic 发布 Claude Opus 4.5,SWE-bench 得分达到突破性的 80.9%,首次在软件工程任务中超越人类水平。

Anthropic 的里程碑时刻

Anthropic 发布了 Claude Opus 4.5,在 SWE-bench Verified 上取得了突破性的 80.9% 分数——首次在软件工程基准测试中超越人类水平表现。

基准测试亮点

SWE-bench Verified:80.9%

这意味着:

  • 每 100 个 GitHub 真实问题,Claude 自主解决 81 个
  • 超越之前最高分 15+ 个百分点
  • 首次超越人类工程师平均水平

其他基准

  • HumanEval: 98.1%
  • MBPP: 96.4%
  • GPQA Diamond: 87.3%

为什么这很重要

软件工程的转折点

SWE-bench 测试的是真实世界的软件工程能力——不是简单的编码题,而是实际的 GitHub 问题修复,涉及:

  • 理解复杂代码库
  • 诊断 Bug 根因
  • 编写正确的修复代码
  • 确保不破坏现有功能

行业影响

  • 开发团队生产力预计提升 30-50%
  • 初级开发者的 AI 辅助将更加有效
  • 代码审查和安全检测质量大幅提升

技术创新

30 小时聚焦窗口

Claude Opus 4.5 引入了 30 小时聚焦窗口功能:

  • 跨会话保持上下文
  • 减少重复的上下文设置
  • 支持复杂的多日项目

200K Token 上下文

  • 完整分析大型代码库
  • 跨文件推理能力
  • 更好的架构理解

定价

层级输入 ($/M)输出 ($/M)
Opus 4.5$15$75
Sonnet 4.5$3$15

竞争格局

模型SWE-bench发布日期
Claude Opus 4.580.9%2025 年 11 月
GPT-5.176.3%2025 年 11 月
Gemini 3 Pro71.8%2025 年 11 月

总结

Claude Opus 4.5 的 80.9% SWE-bench 分数标志着 AI 软件工程的重要里程碑。这是 AI 模型首次在标准化测试中超越人类工程师的平均水平,预示着 AI 辅助开发的新时代。

Ready to Experience Claude 5?

Try Now