متابعة@SentientAGI想拿到项目توزيع مجاني的注意了⚠️



إعلان هام|تم قبول LiveCodeBench Pro (LCB-Pro) من قبل @NeurIPSConf!

سأقدم للجميع مقدمة كاملة عن محتوى الترقية المحدد، إنه حقًا رائع.

هذه ترقية عميقة لمنهجية تقييم استدلال الترميز - إنها تدفع القدرة السطحية على "كتابة رموز片段" نحو تقييم استدلال الترميز "من الطرف إلى الطرف، وقابل للتكرار الحقيقي".🎉

لماذا يختلف LCB-Pro عن السابق؟
إنه ليس فقط رؤية بعض الأمثلة أو docstring لمعرفة ما إذا كان يمكن تخمينها، بل هو تقييم سلسلة القدرة الكاملة للنموذج من قراءة السؤال إلى تجاوز الاختبار المخفي تحت ظروف المسابقة الحقيقية، وتحديد قيود الموارد المخزنة - هذه هي "القدرة الحقيقية على التشفير".

عملية التقييم (من البداية إلى النهاية الحقيقية)
يجب أن تكتمل النموذج:
1️⃣ فهم المعنى الكامل للسؤال (البيان الرسمي)
2️⃣ تصميم الخوارزمية وضمان التوافق مع قيود الوقت/الذاكرة
3️⃣ إخراج كود المصدر القابل للتجميع بلغة C++ (أو لغة adapter)
4️⃣ تم الترجمة بنجاح في صورة Docker الموحدة
5️⃣ اجتياز جميع حالات الاختبار تحت اختبار الإخفاء الحتمي
سيؤدي العملية إلى إنتاج نتيجة لكل سؤال، سجلات، وقت الجدار، وبيانات الذاكرة، مما يجعلها قابلة للتدقيق تمامًا.📋

تصميم مضاد للغش & تعزيز الاختبارات المخفية
• سحب مسائل المسابقة الفعلية من Codeforces وتجميد قيود الوقت/الذاكرة الأصلية؛
• إضافة مرحلة قرصنة على طراز Codeforces واختبار داخلي لزيادة صلابة الاختبارات المخفية؛
لذلك، لم يعد الدرجات تعتمد على حظ الـ prompt، بل تعكس حقًا قدرة الترميز القوية.💪

تغطي المصادر الموضوعية نطاقاً واسعاً، وصعوبة الطيف كاملة
• Codeforces: مستمر، جديد، توزيع واسع لنوع الأسئلة؛
• ICPC: اختبار مستوى الفريق في الاستدلال المتعدد الخطوات وقدرة هندسة الإدخال والإخراج؛
• IOI: تقييم الهياكل البيانية العميقة والتفكير الديناميكي، أي انحراف طفيف في الخوارزمية قد يؤدي إلى TLE/WA.
كل سؤال يحتوي أيضًا على تقييم بأسلوب Elo بناءً على معدل نجاح البشر التاريخي (≤2000 سهل / 2000–3000 متوسط / >3000 صعب) ، مما يسمح بمقارنة درجات النموذج مباشرة بالبشر.📈

شفافية وقابلية للتكرار - متطابقة مع المحلية واللوائح
تستخدم العمليات المحلية نفس قضاة Docker تمامًا، مع قيود مجمدة وتقسيم بيانات؛ تعتمد لوحات المتصدرين العامة على تكوين متسق. كل عملية تشغيل ستخرج أدوات JSON (الحكم، مخرجات المترجم، تسمية الفشل، إلخ)، مما يسهل الانتقال من "الدرجات" إلى "التشخيص".🧾

✅ فائدة مباشرة للباحثين وفرق الهندسة
• نصائح لتجنب الإفراط في التكيّف: الكشف بدقة عن نقاط ضعف النموذج في جوانب مثل الاستدلال على سلاسل طويلة، استراتيجيات التقليم، استراتيجيات البحث وغيرها؛
• تحسين الحلقة المغلقة: تحديد المشكلة مباشرة من علامات الفشل والسجلات (خطأ منطقي، معالجة الإدخال/الإخراج، انتهاء الوقت، ذروة الذاكرة)؛
• مقارنة عادلة: يمكن مقارنة نماذج/فرق مختلفة بشكل متساوٍ، مما يعزز التقدم الحقيقي بدلاً من لعبة تعديل المعلمات.🔬

تأثير على الصناعة والمجتمع
يمكن أن يصبح LCB-Pro البنية التحتية الأساسية في الصناعة لتدريب وإصدار أنظمة توليد/استنتاج التعليمات البرمجية: تطوير النماذج، التقييم الأكاديمي، التدقيق من قبل طرف ثالث،筛选 التوظيف - أصبح هناك معايير تقييم موحدة وموثوقة للغاية. ستزداد ثقة الصناعة وأمان نشر النماذج بشكل ملموس.🚀

تحية إلى الفريق الذي دفع نحو تأسيس LCB-Pro وتم قبوله في NeurIPS! هذه هي أعلى اعتراف بالاختبار الدقيق والممارسات الهندسية - كما أنها تمثل علامة على دخول تقييم قدرة فهم كود الذكاء الاصطناعي إلى عصر "التحقق الناضج". تهانينا الحارة لجميع المشاركين! 👏
هل تريد تشغيل benchmark؟ استنساخ المستودع → إعداد Python 3.12 + Docker → تنفيذ الاستدعاء وفقًا لمعيار adapter → تشغيل Python محليًا مرة واحدة، بعد الحصول على ملف JSON يمكنك المقارنة مباشرة مع نتائج لوحة المتصدرين وتقديمها. تحويل "الدرجة" إلى مسار تحسين قابل للتفسير.🔧

LiveCodeBench Pro ليست مجرد benchmark، بل هي علامة فارقة في تطور الذكاء الاصطناعي من "كتابة التعليمات البرمجية التي تبدو صحيحة" إلى "حل المشكلات بشكل موثوق تحت قيود الموارد الحقيقية". نتطلع لرؤية المزيد من النماذج يتم اختبارها بشكل عادل وتطويرها باستمرار على هذا المسرح.✨

أهنئ مرة أخرى LCB-Pro وجميع المساهمين - لقد أحضرتم معايير التقييم "الحقيقية، القابلة للتكرار، القابلة للتشخيص" إلى الرؤية السائدة لبرمجة الذكاء الاصطناعي. أتطلع إلى المزيد من النماذج الممتازة التي ستتطور هنا وتنمو وتدفع المجال بأكمله إلى الأمام.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت