أخبار عاجلةFebruary 6, 2026

تسريبات معايير Claude 5 تشير إلى قفزة أداء بنسبة 25% عن Claude 4.5

تشير تسريبات المعايير غير الرسمية إلى أن Claude 5 قد يحقق 92% على SWE-bench و99.1% على HumanEval، محدداً أرقاماً قياسية جديدة لقدرات البرمجة بالذكاء الاصطناعي.

تسريبات معايير Claude 5

تشير تسريبات غير رسمية إلى قفزة أداء هائلة في Claude 5.

الأرقام المسربة

SWE-bench Verified: ~92% (من 80.9% في Opus 4.5)

HumanEval: 99.1% (من 97.3%)

GPQA: ~78% (من 65.3%)

MMLU: ~93% (من 88.7%)

مصداقية التسريبات

لصالح المصداقية:

المصدر موظف سابق في Anthropic

الأرقام تتماشى مع معدلات التحسن التاريخية

تتوافق مع تسريبات أخرى

ضد المصداقية:

قد تكون نتائج اختبارات مبكرة غير نهائية

Anthropic لم تؤكد

التحسينات كبيرة جداً

ماذا يعني هذا

إذا صحّت الأرقام، فإن Claude 5 سيحقق:

تفوقاً واضحاً على كل المنافسين

أداء يتجاوز معظم المبرمجين البشريين

قفزة نوعية في التفكير العلمي

الخلاصة

رغم عدم التأكيد الرسمي، التسريبات تشير إلى أن Claude 5 سيكون تحسيناً جوهرياً وليس مجرد تحديث تدريجي.

Ready to Experience Claude 5?

Back to All News