підписатися на @SentientAGI, щоб отримати увагу до аірдропу проекту⚠️
Важливе оголошення|LiveCodeBench Pro (LCB-Pro) був прийнятий @NeurIPSConf!
Я повністю розповім всім про конкретні деталі оновлення, це справді круто.
Це глибоке оновлення методології оцінки кодування — воно піднімає поверхневу здатність "вміти написати фрагмент коду" до оцінки "кінцевого до кінцевого, справжнього та відтворювального кодування".🎉
Чому LCB-Pro відрізняється від попередніх? Це не просто спостереження за кількома прикладами або docstring, щоб з'ясувати, чи можна їх вгадати, а оцінка повного ланцюга можливостей моделі від читання завдання до проходження прихованих тестів у реальних конкурсних завданнях, обмеженнях заморожених ресурсів і конкурентних прихованих тестах — це справжнє "вміння кодувати".🔎
Процес оцінки (справжній кінець-до-кінець) Модель повинна бути завершена: 1️⃣ Зрозуміти повний зміст завдання (офіційна заява) 2️⃣ Розробіть алгоритм та забезпечте відповідність обмеженням за часом/пам'яттю 3️⃣ Вивести компільований C++ (або мову адаптера) вихідний код 4️⃣ Скомпільовано в єдиному Docker-образі 5️⃣ Пройти всі випадки тестування під детермінованим прихованим тестом Весь процес буде генерувати verdict для кожного запитання, журнали, wall-clock час та дані пам'яті, повністю підлягають аудиту.📋
Дизайн протипідкупного захисту & посилення прихованого тестування • Захоплення фактичних завдань з Codeforces та замороження оригінальних обмежень часу/пам'яті; • Додавання етапу хакінгу в стилі Codeforces та внутрішнього фуззингу для зміцнення прихованих тестів; Тому бал вже не є вдачею при підказках, а є справжнім відображенням здатності до надійного кодування.💪
Теми охоплюють широкий спектр, складність варіюється • Codeforces: тривало, свіжо, широкий розподіл типів задач; • ICPC: випробування командного рівня на багатоступеневе мислення та I/O інженерні здібності; • IOI: оцінка глибоких структур даних та мислення DP, незначне відхилення алгоритму може призвести до TLE/WA. Кожне питання має рейтинг стилю Ело на основі історичної прохідності людей (≤2000 Легко / 2000–3000 Середньо / >3000 Важко), що дозволяє безпосередньо порівнювати оцінки моделі з людськими.📈
Прозорість та відтворюваність — відповідність місцевим та рейтинговим показникам Локальне виконання використовує абсолютно таку ж Docker judge, заморожені обмеження та розподіл даних; публічний рейтинг має однакову конфігурацію. Кожен запуск виводитиме JSON артефакти (вердикт, вихід компілятора, мітка збоїв тощо), що полегшує перехід від "балів" до "діагностики".🧾
✅ Прямі вигоди для дослідників та інженерних команд • Уникнення переобучення: точно виявляти слабкі місця моделі в довгих ланцюгових міркуваннях, стратегіях вирізання, стратегіях пошуку тощо; • Поліпшення замкнутого циклу: безпосереднє виявлення проблеми з невдалими мітками та журналами (логічні помилки, обробка I/O, тайм-аути, пікові значення пам'яті); • Справедливо порівняти: різні моделі/команди можуть порівнюватися один до одного, сприяючи реальному прогресу, а не грі з параметрами.🔬
Вплив на промисловість та громаду LCB-Pro може стати галузевою інфраструктурою для навчання та випуску систем генерації/виводу коду: розробка моделей, академічне оцінювання, сторонній аудит, відбір кандидатів — все має єдині та високонадійні стандарти оцінки. Довіра до галузі та безпека розгортання моделей суттєво зростуть.🚀
Вітаємо команду, яка сприяла створенню LCB-Pro та була прийнята на NeurIPS! Це найвища відзнака за сувору оцінку та інженерну практику — також це знаменує перехід оцінювання здатності AI до розуміння коду в нову еру "дозволеної перевірки". Щиро вітаємо всіх учасників! 👏 Хочете запустити benchmark? Клонуйте репозиторій → підготуйте Python 3.12 + Docker → реалізуйте виклик згідно з адаптером → запустіть python локально, після отримання JSON артефактів можна безпосередньо порівняти з результатами рейтингу та подати. Перетворіть "бал" на зрозумілий маршрут покращення.🔧
LiveCodeBench Pro не тільки бенчмарк, це ключова віхa, яка дозволяє ШІ еволюціонувати від "написання коду, який виглядає правильним" до "надійного вирішення задач в умовах реальних ресурсних обмежень". Сподіваюся побачити більше моделей, які будуть справедливо перевірені та постійно вдосконалені на цій сцені.✨
Ще раз вітаю LCB-Pro та всіх учасників — ви принесли стандарти оцінки "реальності, відтворюваності та діагностування" в основний потік кодування ШІ. Чекаємо на більше відмінних моделей, які тут загартуються, зростуть і просунуть всю галузь вперед.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
підписатися на @SentientAGI, щоб отримати увагу до аірдропу проекту⚠️
Важливе оголошення|LiveCodeBench Pro (LCB-Pro) був прийнятий @NeurIPSConf!
Я повністю розповім всім про конкретні деталі оновлення, це справді круто.
Це глибоке оновлення методології оцінки кодування — воно піднімає поверхневу здатність "вміти написати фрагмент коду" до оцінки "кінцевого до кінцевого, справжнього та відтворювального кодування".🎉
Чому LCB-Pro відрізняється від попередніх?
Це не просто спостереження за кількома прикладами або docstring, щоб з'ясувати, чи можна їх вгадати, а оцінка повного ланцюга можливостей моделі від читання завдання до проходження прихованих тестів у реальних конкурсних завданнях, обмеженнях заморожених ресурсів і конкурентних прихованих тестах — це справжнє "вміння кодувати".🔎
Процес оцінки (справжній кінець-до-кінець)
Модель повинна бути завершена:
1️⃣ Зрозуміти повний зміст завдання (офіційна заява)
2️⃣ Розробіть алгоритм та забезпечте відповідність обмеженням за часом/пам'яттю
3️⃣ Вивести компільований C++ (або мову адаптера) вихідний код
4️⃣ Скомпільовано в єдиному Docker-образі
5️⃣ Пройти всі випадки тестування під детермінованим прихованим тестом
Весь процес буде генерувати verdict для кожного запитання, журнали, wall-clock час та дані пам'яті, повністю підлягають аудиту.📋
Дизайн протипідкупного захисту & посилення прихованого тестування
• Захоплення фактичних завдань з Codeforces та замороження оригінальних обмежень часу/пам'яті;
• Додавання етапу хакінгу в стилі Codeforces та внутрішнього фуззингу для зміцнення прихованих тестів;
Тому бал вже не є вдачею при підказках, а є справжнім відображенням здатності до надійного кодування.💪
Теми охоплюють широкий спектр, складність варіюється
• Codeforces: тривало, свіжо, широкий розподіл типів задач;
• ICPC: випробування командного рівня на багатоступеневе мислення та I/O інженерні здібності;
• IOI: оцінка глибоких структур даних та мислення DP, незначне відхилення алгоритму може призвести до TLE/WA.
Кожне питання має рейтинг стилю Ело на основі історичної прохідності людей (≤2000 Легко / 2000–3000 Середньо / >3000 Важко), що дозволяє безпосередньо порівнювати оцінки моделі з людськими.📈
Прозорість та відтворюваність — відповідність місцевим та рейтинговим показникам
Локальне виконання використовує абсолютно таку ж Docker judge, заморожені обмеження та розподіл даних; публічний рейтинг має однакову конфігурацію. Кожен запуск виводитиме JSON артефакти (вердикт, вихід компілятора, мітка збоїв тощо), що полегшує перехід від "балів" до "діагностики".🧾
✅ Прямі вигоди для дослідників та інженерних команд
• Уникнення переобучення: точно виявляти слабкі місця моделі в довгих ланцюгових міркуваннях, стратегіях вирізання, стратегіях пошуку тощо;
• Поліпшення замкнутого циклу: безпосереднє виявлення проблеми з невдалими мітками та журналами (логічні помилки, обробка I/O, тайм-аути, пікові значення пам'яті);
• Справедливо порівняти: різні моделі/команди можуть порівнюватися один до одного, сприяючи реальному прогресу, а не грі з параметрами.🔬
Вплив на промисловість та громаду
LCB-Pro може стати галузевою інфраструктурою для навчання та випуску систем генерації/виводу коду: розробка моделей, академічне оцінювання, сторонній аудит, відбір кандидатів — все має єдині та високонадійні стандарти оцінки. Довіра до галузі та безпека розгортання моделей суттєво зростуть.🚀
Вітаємо команду, яка сприяла створенню LCB-Pro та була прийнята на NeurIPS! Це найвища відзнака за сувору оцінку та інженерну практику — також це знаменує перехід оцінювання здатності AI до розуміння коду в нову еру "дозволеної перевірки". Щиро вітаємо всіх учасників! 👏
Хочете запустити benchmark? Клонуйте репозиторій → підготуйте Python 3.12 + Docker → реалізуйте виклик згідно з адаптером → запустіть python локально, після отримання JSON артефактів можна безпосередньо порівняти з результатами рейтингу та подати. Перетворіть "бал" на зрозумілий маршрут покращення.🔧
LiveCodeBench Pro не тільки бенчмарк, це ключова віхa, яка дозволяє ШІ еволюціонувати від "написання коду, який виглядає правильним" до "надійного вирішення задач в умовах реальних ресурсних обмежень". Сподіваюся побачити більше моделей, які будуть справедливо перевірені та постійно вдосконалені на цій сцені.✨
Ще раз вітаю LCB-Pro та всіх учасників — ви принесли стандарти оцінки "реальності, відтворюваності та діагностування" в основний потік кодування ШІ. Чекаємо на більше відмінних моделей, які тут загартуються, зростуть і просунуть всю галузь вперед.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI