关注@SentientAGI 想拿到项目空投的注意了⚠️



重大公告|LiveCodeBench Pro(LCB-Pro)被 @NeurIPSConf 接收!

我完整的给大家介绍一下具体的升级内容 真的很牛逼

这是对编码推理评测方法学的一次深刻升级 —— 它把“会写片段代码”的表面能力,推向“端到端、真实可复现的编码推理”评估。🎉

为什么 LCB-Pro 与以往不同?
它不是只看几个示例或 docstring 能不能被猜到,而是在真实竞赛题、冻结资源限制和对抗性隐藏测试下,评估模型从读题到通过隐藏测试的完整能力链路——这才是真正的“会编码”。🔎

评测流程(真正的端到端)
模型必须完成:
1️⃣ 读懂完整题意(官方 statement)
2️⃣ 设计算法并保证符合时间/内存限制
3️⃣ 输出可编译的 C++(或 adapter 语言)源码
4️⃣ 在统一 Docker 镜像中编译通过
5️⃣ 在确定性的隐藏测试下通过所有用例
整个流程会产出每题 verdict、日志、wall-clock 时间与内存数据,完全可审计。📋

防作弊设计 & 隐藏测试强化
• 抓取 Codeforces 的实际赛题并冻结原始 time/memory 限制;
• 增加 Codeforces 风格的 hack 阶段与内部 fuzzing,用来硬化隐藏测试;
因此分数不再是 prompt 运气,而是真正的鲁棒编码能力体现。💪

题源覆盖广、难度谱全
• Codeforces:持续、新鲜、题型分布广;
• ICPC:考验团队级别的多步推理与 I/O 工程能力;
• IOI:考核深层数据结构与 DP 思维,轻微算法偏差就会 TLE/WA。
每道题还有基于历史人类通过率的 Elo 风格评级(≤2000 Easy / 2000–3000 Medium / >3000 Hard),使模型评分可与人类直接对比。📈

透明与可复现 — 本地与排行榜一致
本地运行使用完全相同的 Docker judge、冻结的限制与数据拆分;公开排行榜采用一致配置。每次运行都会输出 JSON 工件(verdict、compiler output、failure label 等),便于从“分数”走向“诊断”。🧾

✅ 对研究者与工程团队的直接利好
• 避免过拟合提示技巧:准确揭示模型在长链推理、剪枝策略、搜索策略等方面的短板;
• 改进闭环:从失败标签和日志直接定位问题(逻辑错误、I/O 处理、超时、内存峰值);
• 公平比较:不同模型/团队可以 apples-to-apples 比较,推进真实进步而不是调参游戏。🔬

对产业与社区的影响
LCB-Pro 能成为训练和发布代码生成/推理系统的行业基础设施:模型研发、学术评测、第三方审计、招聘筛选——都有了统一且高可信的评测标准。行业信任度和模型部署安全性都会实质提升。🚀

向推动 LCB-Pro 成立与被 NeurIPS 接收的团队致敬!这是对严谨评测与工程实践的最高认可——也标志着 AI 代码理解能力评估迈入“成熟可验证”的新时代。向所有参与者热烈祝贺!👏
想跑 benchmark?Clone 仓库 → 准备 Python 3.12 + Docker → 按 adapter 规范实现调用 → python 本地跑一轮,拿到 JSON 工件后就能直接与排行榜结果比对与提交。把“分数”变成可解释的改进路线。🔧

LiveCodeBench Pro 不仅是一个 benchmark,它是让 AI 从“写出看起来对的代码”进化为“在真实资源约束下可靠解题”的关键里程碑。期待看到更多模型在这个舞台上被公平检验与持续打磨。✨

再次祝贺 LCB-Pro 与所有贡献者 —— 你们把“真实、可复现、可诊断”的评测标准带进了编码 AI 的主流视野。期待更多优秀模型在这里淬炼、成长并推动整个领域向前。

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)