أخبار عاجلةFebruary 6, 2026

تسريبات معايير Claude 5 تشير إلى قفزة أداء بنسبة 25% عن Claude 4.5

تشير تسريبات المعايير غير الرسمية إلى أن Claude 5 قد يحقق 92% على SWE-bench و99.1% على HumanEval، محدداً أرقاماً قياسية جديدة لقدرات البرمجة بالذكاء الاصطناعي.

تسريبات معايير Claude 5

تشير تسريبات غير رسمية إلى قفزة أداء هائلة في Claude 5.

الأرقام المسربة

  • SWE-bench Verified: ~92% (من 80.9% في Opus 4.5)
  • HumanEval: 99.1% (من 97.3%)
  • GPQA: ~78% (من 65.3%)
  • MMLU: ~93% (من 88.7%)

مصداقية التسريبات

لصالح المصداقية:
  • المصدر موظف سابق في Anthropic
  • الأرقام تتماشى مع معدلات التحسن التاريخية
  • تتوافق مع تسريبات أخرى
ضد المصداقية:
  • قد تكون نتائج اختبارات مبكرة غير نهائية
  • Anthropic لم تؤكد
  • التحسينات كبيرة جداً

ماذا يعني هذا

إذا صحّت الأرقام، فإن Claude 5 سيحقق:

  • تفوقاً واضحاً على كل المنافسين
  • أداء يتجاوز معظم المبرمجين البشريين
  • قفزة نوعية في التفكير العلمي

الخلاصة

رغم عدم التأكيد الرسمي، التسريبات تشير إلى أن Claude 5 سيكون تحسيناً جوهرياً وليس مجرد تحديث تدريجي.

Ready to Experience Claude 5?

Try Now