亲爱的广场用户们,广场使用界面全新升级啦!新版本界面更清新简洁、操作更流畅丝滑,还有多项贴心新功能上线,快来更新体验吧!你对新版界面有什么感受?你最喜欢的新功能是哪一个?你发现了哪些惊喜或变化呢?发帖分享新版广场使用体验,瓜分 $10 分享奖励!
🎁 我们将精选 10 位幸运用户,每人奖励 $10 合约体验券!
参与方式:
1⃣️ 关注 Gate广场_Official;
2⃣️ 带上 #我的广场升级体验 标签发帖,分享你的使用感受,比如界面风格体验、细节功能变化、你最喜欢的新功能,或优化建议等;
3⃣️ 帖子内容需至少 30 字,并且只带本活动标签;
广场界面焕新介绍文章:https://gate.com/post?post_id=14774358&tim=ARAbClhcBQNwWRIVGAoGBB5QX1sO0O0O&ref=BFlBUFwL&ref_type=105
活动截止时间:2025/10/26 18:00(UTC+8)
你的体验是我们持续优化的动力!赶快参与和大家分享吧!
关注@SentientAGI 想拿到项目空投的注意了⚠️
重大公告|LiveCodeBench Pro(LCB-Pro)被 @NeurIPSConf 接收!
我完整的给大家介绍一下具体的升级内容 真的很牛逼
这是对编码推理评测方法学的一次深刻升级 —— 它把“会写片段代码”的表面能力,推向“端到端、真实可复现的编码推理”评估。🎉
为什么 LCB-Pro 与以往不同?
它不是只看几个示例或 docstring 能不能被猜到,而是在真实竞赛题、冻结资源限制和对抗性隐藏测试下,评估模型从读题到通过隐藏测试的完整能力链路——这才是真正的“会编码”。🔎
评测流程(真正的端到端)
模型必须完成:
1️⃣ 读懂完整题意(官方 statement)
2️⃣ 设计算法并保证符合时间/内存限制
3️⃣ 输出可编译的 C++(或 adapter 语言)源码
4️⃣ 在统一 Docker 镜像中编译通过
5️⃣ 在确定性的隐藏测试下通过所有用例
整个流程会产出每题 verdict、日志、wall-clock 时间与内存数据,完全可审计。📋
防作弊设计 & 隐藏测试强化
• 抓取 Codeforces 的实际赛题并冻结原始 time/memory 限制;
• 增加 Codeforces 风格的 hack 阶段与内部 fuzzing,用来硬化隐藏测试;
因此分数不再是 prompt 运气,而是真正的鲁棒编码能力体现。💪
题源覆盖广、难度谱全
• Codeforces:持续、新鲜、题型分布广;
• ICPC:考验团队级别的多步推理与 I/O 工程能力;
• IOI:考核深层数据结构与 DP 思维,轻微算法偏差就会 TLE/WA。
每道题还有基于历史人类通过率的 Elo 风格评级(≤2000 Easy / 2000–3000 Medium / >3000 Hard),使模型评分可与人类直接对比。📈
透明与可复现 — 本地与排行榜一致
本地运行使用完全相同的 Docker judge、冻结的限制与数据拆分;公开排行榜采用一致配置。每次运行都会输出 JSON 工件(verdict、compiler output、failure label 等),便于从“分数”走向“诊断”。🧾
✅ 对研究者与工程团队的直接利好
• 避免过拟合提示技巧:准确揭示模型在长链推理、剪枝策略、搜索策略等方面的短板;
• 改进闭环:从失败标签和日志直接定位问题(逻辑错误、I/O 处理、超时、内存峰值);
• 公平比较:不同模型/团队可以 apples-to-apples 比较,推进真实进步而不是调参游戏。🔬
对产业与社区的影响
LCB-Pro 能成为训练和发布代码生成/推理系统的行业基础设施:模型研发、学术评测、第三方审计、招聘筛选——都有了统一且高可信的评测标准。行业信任度和模型部署安全性都会实质提升。🚀
向推动 LCB-Pro 成立与被 NeurIPS 接收的团队致敬!这是对严谨评测与工程实践的最高认可——也标志着 AI 代码理解能力评估迈入“成熟可验证”的新时代。向所有参与者热烈祝贺!👏
想跑 benchmark?Clone 仓库 → 准备 Python 3.12 + Docker → 按 adapter 规范实现调用 → python 本地跑一轮,拿到 JSON 工件后就能直接与排行榜结果比对与提交。把“分数”变成可解释的改进路线。🔧
LiveCodeBench Pro 不仅是一个 benchmark,它是让 AI 从“写出看起来对的代码”进化为“在真实资源约束下可靠解题”的关键里程碑。期待看到更多模型在这个舞台上被公平检验与持续打磨。✨
再次祝贺 LCB-Pro 与所有贡献者 —— 你们把“真实、可复现、可诊断”的评测标准带进了编码 AI 的主流视野。期待更多优秀模型在这里淬炼、成长并推动整个领域向前。
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI