أخبار عاجلةFebruary 6, 2026
تسريبات معايير Claude 5 تشير إلى قفزة أداء بنسبة 25% عن Claude 4.5
تشير تسريبات المعايير غير الرسمية إلى أن Claude 5 قد يحقق 92% على SWE-bench و99.1% على HumanEval، محدداً أرقاماً قياسية جديدة لقدرات البرمجة بالذكاء الاصطناعي.
تسريبات معايير Claude 5
تشير تسريبات غير رسمية إلى قفزة أداء هائلة في Claude 5.
الأرقام المسربة
- SWE-bench Verified: ~92% (من 80.9% في Opus 4.5)
- HumanEval: 99.1% (من 97.3%)
- GPQA: ~78% (من 65.3%)
- MMLU: ~93% (من 88.7%)
مصداقية التسريبات
لصالح المصداقية:- المصدر موظف سابق في Anthropic
- الأرقام تتماشى مع معدلات التحسن التاريخية
- تتوافق مع تسريبات أخرى
- قد تكون نتائج اختبارات مبكرة غير نهائية
- Anthropic لم تؤكد
- التحسينات كبيرة جداً
ماذا يعني هذا
إذا صحّت الأرقام، فإن Claude 5 سيحقق:
- تفوقاً واضحاً على كل المنافسين
- أداء يتجاوز معظم المبرمجين البشريين
- قفزة نوعية في التفكير العلمي
الخلاصة
رغم عدم التأكيد الرسمي، التسريبات تشير إلى أن Claude 5 سيكون تحسيناً جوهرياً وليس مجرد تحديث تدريجي.