2025-10-19 08:15:59

متابعة@SentientAGI想拿到项目توزيع مجاني的注意了⚠️

إعلان هام｜تم قبول LiveCodeBench Pro (LCB-Pro) من قبل @NeurIPSConf!

سأقدم للجميع مقدمة كاملة عن محتوى الترقية المحدد، إنه حقًا رائع.

هذه ترقية عميقة لمنهجية تقييم استدلال الترميز - إنها تدفع القدرة السطحية على "كتابة رموز片段" نحو تقييم استدلال الترميز "من الطرف إلى الطرف، وقابل للتكرار الحقيقي".🎉

لماذا يختلف LCB-Pro عن السابق؟
إنه ليس فقط رؤية بعض الأمثلة أو docstring لمعرفة ما إذا كان يمكن تخمينها، بل هو تقييم سلسلة القدرة الكاملة للنموذج من قراءة السؤال إلى تجاوز الاختبار المخفي تحت ظروف المسابقة الحقيقية، وتحديد قيود الموارد المخزنة - هذه هي "القدرة الحقيقية على التشفير".

عملية التقييم (من البداية إلى النهاية الحقيقية)
يجب أن تكتمل النموذج:
1️⃣ فهم المعنى الكامل للسؤال (البيان الرسمي)
2️⃣ تصميم الخوارزمية وضمان التوافق مع قيود الوقت/الذاكرة
3️⃣ إخراج كود المصدر القابل للتجميع بلغة C++ (أو لغة adapter)
4️⃣ تم الترجمة بنجاح في صورة Docker الموحدة
5️⃣ اجتياز جميع حالات الاختبار تحت اختبار الإخفاء الحتمي
سيؤدي العملية إلى إنتاج نتيجة لكل سؤال، سجلات، وقت الجدار، وبيانات الذاكرة، مما يجعلها قابلة للتدقيق تمامًا.📋

تصميم مضاد للغش & تعزيز الاختبارات المخفية
• سحب مسائل المسابقة الفعلية من Codeforces وتجميد قيود الوقت/الذاكرة الأصلية؛
• إضافة مرحلة قرصنة على طراز Codeforces واختبار داخلي لزيادة صلابة الاختبارات المخفية؛
لذلك، لم يعد الدرجات تعتمد على حظ الـ prompt، بل تعكس حقًا قدرة الترميز القوية.💪

تغطي المصادر الموضوعية نطاقاً واسعاً، وصعوبة الطيف كاملة
• Codeforces: مستمر، جديد، توزيع واسع لنوع الأسئلة؛
• ICPC: اختبار مستوى الفريق في الاستدلال المتعدد الخطوات وقدرة هندسة الإدخال والإخراج؛
• IOI: تقييم الهياكل البيانية العميقة والتفكير الديناميكي، أي انحراف طفيف في الخوارزمية قد يؤدي إلى TLE/WA.
كل سؤال يحتوي أيضًا على تقييم بأسلوب Elo بناءً على معدل نجاح البشر التاريخي (≤2000 سهل / 2000–3000 متوسط / >3000 صعب) ، مما يسمح بمقارنة درجات النموذج مباشرة بالبشر.📈

شفافية وقابلية للتكرار - متطابقة مع المحلية واللوائح
تستخدم العمليات المحلية نفس قضاة Docker تمامًا، مع قيود مجمدة وتقسيم بيانات؛ تعتمد لوحات المتصدرين العامة على تكوين متسق. كل عملية تشغيل ستخرج أدوات JSON (الحكم، مخرجات المترجم، تسمية الفشل، إلخ)، مما يسهل الانتقال من "الدرجات" إلى "التشخيص".🧾

✅ فائدة مباشرة للباحثين وفرق الهندسة
• نصائح لتجنب الإفراط في التكيّف: الكشف بدقة عن نقاط ضعف النموذج في جوانب مثل الاستدلال على سلاسل طويلة، استراتيجيات التقليم، استراتيجيات البحث وغيرها؛
• تحسين الحلقة المغلقة: تحديد المشكلة مباشرة من علامات الفشل والسجلات (خطأ منطقي، معالجة الإدخال/الإخراج، انتهاء الوقت، ذروة الذاكرة)؛
• مقارنة عادلة: يمكن مقارنة نماذج/فرق مختلفة بشكل متساوٍ، مما يعزز التقدم الحقيقي بدلاً من لعبة تعديل المعلمات.🔬

تأثير على الصناعة والمجتمع
يمكن أن يصبح LCB-Pro البنية التحتية الأساسية في الصناعة لتدريب وإصدار أنظمة توليد/استنتاج التعليمات البرمجية: تطوير النماذج، التقييم الأكاديمي، التدقيق من قبل طرف ثالث،筛选 التوظيف - أصبح هناك معايير تقييم موحدة وموثوقة للغاية. ستزداد ثقة الصناعة وأمان نشر النماذج بشكل ملموس.🚀

تحية إلى الفريق الذي دفع نحو تأسيس LCB-Pro وتم قبوله في NeurIPS! هذه هي أعلى اعتراف بالاختبار الدقيق والممارسات الهندسية - كما أنها تمثل علامة على دخول تقييم قدرة فهم كود الذكاء الاصطناعي إلى عصر "التحقق الناضج". تهانينا الحارة لجميع المشاركين! 👏
هل تريد تشغيل benchmark؟ استنساخ المستودع → إعداد Python 3.12 + Docker → تنفيذ الاستدعاء وفقًا لمعيار adapter → تشغيل Python محليًا مرة واحدة، بعد الحصول على ملف JSON يمكنك المقارنة مباشرة مع نتائج لوحة المتصدرين وتقديمها. تحويل "الدرجة" إلى مسار تحسين قابل للتفسير.🔧

LiveCodeBench Pro ليست مجرد benchmark، بل هي علامة فارقة في تطور الذكاء الاصطناعي من "كتابة التعليمات البرمجية التي تبدو صحيحة" إلى "حل المشكلات بشكل موثوق تحت قيود الموارد الحقيقية". نتطلع لرؤية المزيد من النماذج يتم اختبارها بشكل عادل وتطويرها باستمرار على هذا المسرح.✨

أهنئ مرة أخرى LCB-Pro وجميع المساهمين - لقد أحضرتم معايير التقييم "الحقيقية، القابلة للتكرار، القابلة للتشخيص" إلى الرؤية السائدة لبرمجة الذكاء الاصطناعي. أتطلع إلى المزيد من النماذج الممتازة التي ستتطور هنا وتنمو وتدفع المجال بأكمله إلى الأمام.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

0/400

لا توجد تعليقات

المواضيع الرائجةعرض المزيد
#ETHReboundSoon?
8.7K درجة الشعبية
#WhaleAdds$250MBTCLongs
7.3K درجة الشعبية
#BigTokenUnlocksAhead
5.3K درجة الشعبية
#FedHostsInnovationSummit
1.5K درجة الشعبية
#ShowMyAlphaPoints
199.8K درجة الشعبية

Gate Fun الساخنعرض المزيد
1GCATGCAT
القيمة السوقية:$1.3Mعدد الحائزين:10576
2GDOGGdog
القيمة السوقية:$1Mعدد الحائزين:6184
3芝麻人生芝麻人生
القيمة السوقية:$124.3Kعدد الحائزين:7310
4芝麻开门芝麻开门
القيمة السوقية:$658.7Kعدد الحائزين:126
5GCATGcat
القيمة السوقية:$41.1Kعدد الحائزين:1349

تثبيت

خريطة الموقع