分析

Claude 5 ベンチマーク予測: SWE-benchとその先

Claude 5ベンチマークパフォーマンスのデータ駆動予測。歴史的分析、スケーリング則、SWE-bench、GPQA、ARC-AGI等の期待スコア。

February 2026

要約

スケーリング則と歴史的パターンに基づき、Claude 5はSWE-bench Verified 85〜92%、GPQA Diamond 90%以上、HumanEval 99%以上、ARC-AGI-2 45〜55%を達成すると予測されます。Fennecリークは、Sonnet 5がすでにSWE-bench 80.9%を達成していることを示唆し、積極的な予測を裏付けています。

歴史的スケーリング分析

モデルSWE-bench改善
Claude 3 Opus49.0%ベースライン
Claude 3.5 Sonnet64.0%+15ポイント
Claude 4 Sonnet72.0%+8ポイント
Claude 4.5 Opus80.9%+8.9ポイント
Claude 5(予測)85-92%+4〜11ポイント

各世代は絶対的な増加幅が縮小していますが、10〜15%の一貫した相対的改善を示しています。

SWE-bench予測

保守的見積もり:85%

    • 典型的な5〜6ポイントの世代間ジャンプに基づく
      • ベンチマーク飽和を考慮
        • 漸進的なアーキテクチャ改善を想定

        楽観的見積もり:92%

          • エージェントネイティブアーキテクチャによるタスク分解の改善
            • 拡張コンテキストによるコードベース全体の理解
              • Dev Teamモードによる多角的分析

              競争環境

              ベンチマークClaude 5GPT-5.2Gemini 3
              SWE-bench1位(85-92%)3位(76%)2位(78%)
              GPQA1位(90%以上)2位(85%)3位(82%)
              ARC-AGI-23位(50%)1位(54%)2位(52%)
              AIME2位(95%)1位(100%)3位(92%)

              結論

              Claude 5はコーディングベンチマーク(SWE-bench、HumanEval)と科学的推論(GPQA)でリードし、純粋な数学(AIME)と抽象推論(ARC-AGI-2)では遅れると予測されます。実世界のパフォーマンスは具体的なユースケースに依存します。ベンチマークスコアは指標であり、保証ではありません。

Ready to Experience Claude 5?

Try Now