Claude 5 ベンチマーク予測: 期待されるSWE-benchとGPQAスコア

要約

スケーリング則と歴史的パターンに基づき、Claude 5はSWE-bench Verified 85〜92%、GPQA Diamond 90%以上、HumanEval 99%以上、ARC-AGI-2 45〜55%を達成すると予測されます。Fennecリークは、Sonnet 5がすでにSWE-bench 80.9%を達成していることを示唆し、積極的な予測を裏付けています。

歴史的スケーリング分析

モデル	SWE-bench	改善

Claude 3 Opus

49.0%

ベースライン

Claude 3.5 Sonnet

64.0%

+15ポイント

Claude 4 Sonnet

72.0%

+8ポイント

Claude 4.5 Opus

80.9%

+8.9ポイント

Claude 5（予測）

85-92%

+4〜11ポイント

各世代は絶対的な増加幅が縮小していますが、10〜15%の一貫した相対的改善を示しています。

SWE-bench予測

保守的見積もり：85%

典型的な5〜6ポイントの世代間ジャンプに基づく

ベンチマーク飽和を考慮

漸進的なアーキテクチャ改善を想定

楽観的見積もり：92%

エージェントネイティブアーキテクチャによるタスク分解の改善

拡張コンテキストによるコードベース全体の理解

Dev Teamモードによる多角的分析

競争環境

ベンチマーク	Claude 5	GPT-5.2	Gemini 3

SWE-bench

1位（85-92%）

3位（76%）

2位（78%）

GPQA

1位（90%以上）

2位（85%）

3位（82%）

ARC-AGI-2

3位（50%）

1位（54%）

2位（52%）

AIME

2位（95%）

1位（100%）

3位（92%）

結論

Claude 5はコーディングベンチマーク（SWE-bench、HumanEval）と科学的推論（GPQA）でリードし、純粋な数学（AIME）と抽象推論（ARC-AGI-2）では遅れると予測されます。実世界のパフォーマンスは具体的なユースケースに依存します。ベンチマークスコアは指標であり、保証ではありません。

Claude 5 ベンチマーク予測: SWE-benchとその先

要約

歴史的スケーリング分析

SWE-bench予測

競争環境

結論

Ready to Experience Claude 5?