分析
Claude 5 ベンチマーク予測: SWE-benchとその先
Claude 5ベンチマークパフォーマンスのデータ駆動予測。歴史的分析、スケーリング則、SWE-bench、GPQA、ARC-AGI等の期待スコア。
February 2026
要約
スケーリング則と歴史的パターンに基づき、Claude 5はSWE-bench Verified 85〜92%、GPQA Diamond 90%以上、HumanEval 99%以上、ARC-AGI-2 45〜55%を達成すると予測されます。Fennecリークは、Sonnet 5がすでにSWE-bench 80.9%を達成していることを示唆し、積極的な予測を裏付けています。
歴史的スケーリング分析
| モデル | SWE-bench | 改善 |
|---|
| Claude 3 Opus | 49.0% | ベースライン |
| Claude 3.5 Sonnet | 64.0% | +15ポイント |
| Claude 4 Sonnet | 72.0% | +8ポイント |
| Claude 4.5 Opus | 80.9% | +8.9ポイント |
| Claude 5(予測) | 85-92% | +4〜11ポイント |
各世代は絶対的な増加幅が縮小していますが、10〜15%の一貫した相対的改善を示しています。
SWE-bench予測
保守的見積もり:85%
- 典型的な5〜6ポイントの世代間ジャンプに基づく
- ベンチマーク飽和を考慮
- 漸進的なアーキテクチャ改善を想定
- エージェントネイティブアーキテクチャによるタスク分解の改善
- 拡張コンテキストによるコードベース全体の理解
- Dev Teamモードによる多角的分析
楽観的見積もり:92%
競争環境
| ベンチマーク | Claude 5 | GPT-5.2 | Gemini 3 |
|---|
| SWE-bench | 1位(85-92%) | 3位(76%) | 2位(78%) |
| GPQA | 1位(90%以上) | 2位(85%) | 3位(82%) |
| ARC-AGI-2 | 3位(50%) | 1位(54%) | 2位(52%) |
| AIME | 2位(95%) | 1位(100%) | 3位(92%) |
結論
Claude 5はコーディングベンチマーク(SWE-bench、HumanEval)と科学的推論(GPQA)でリードし、純粋な数学(AIME)と抽象推論(ARC-AGI-2)では遅れると予測されます。実世界のパフォーマンスは具体的なユースケースに依存します。ベンチマークスコアは指標であり、保証ではありません。