親愛的廣場用戶們,廣場使用界面全新升級啦!新版本界面更清新簡潔、操作更流暢絲滑,還有多項貼心新功能上線,快來更新體驗吧!你對新版界面有什麼感受?你最喜歡的新功能是哪一個?你發現了哪些驚喜或變化呢?發帖分享新版廣場使用體驗,瓜分 $10 分享獎勵!
🎁 我們將精選 10 位幸運用戶,每人獎勵 $10 合約體驗券!
參與方式:
1⃣️ 關注 Gate廣場_Official;
2⃣️ 帶上 #我的广场升级体验 標籤發帖,分享你的使用感受,比如界面風格體驗、細節功能變化、你最喜歡的新功能,或優化建議等;
3⃣️ 帖子內容需至少 30 字,並且只帶本活動標籤;
廣場界面煥新介紹文章:https://gate.com/post?post_id=14774358&tim=ARAbClhcBQNwWRIVGAoGBB5QX1sO0O0O&ref=BFlBUFwL&ref_type=105
活動截止時間:2025/10/26 18:00(UTC+8)
你的體驗是我們持續優化的動力!趕快參與和大家分享吧!
關注@SentientAGI 想拿到項目空投的注意了⚠️
重大公告|LiveCodeBench Pro(LCB-Pro)被 @NeurIPSConf 接收!
我完整的給大家介紹一下具體的升級內容 真的很牛逼
這是對編碼推理評測方法學的一次深刻升級 —— 它把“會寫片段代碼”的表面能力,推向“端到端、真實可復現的編碼推理”評估。🎉
爲什麼 LCB-Pro 與以往不同?
它不是只看幾個示例或 docstring 能不能被猜到,而是在真實競賽題、凍結資源限制和對抗性隱藏測試下,評估模型從讀題到通過隱藏測試的完整能力鏈路——這才是真正的“會編碼”。🔎
評測流程(真正的端到端)
模型必須完成:
1️⃣ 讀懂完整題意(官方 statement)
2️⃣ 設計算法並保證符合時間/內存限制
3️⃣ 輸出可編譯的 C++(或 adapter 語言)源碼
4️⃣ 在統一 Docker 鏡像中編譯通過
5️⃣ 在確定性的隱藏測試下通過所有用例
整個流程會產出每題 verdict、日志、wall-clock 時間與內存數據,完全可審計。📋
防作弊設計 & 隱藏測試強化
• 抓取 Codeforces 的實際賽題並凍結原始 time/memory 限制;
• 增加 Codeforces 風格的 hack 階段與內部 fuzzing,用來硬化隱藏測試;
因此分數不再是 prompt 運氣,而是真正的魯棒編碼能力體現。💪
題源覆蓋廣、難度譜全
• Codeforces:持續、新鮮、題型分布廣;
• ICPC:考驗團隊級別的多步推理與 I/O 工程能力;
• IOI:考核深層數據結構與 DP 思維,輕微算法偏差就會 TLE/WA。
每道題還有基於歷史人類通過率的 Elo 風格評級(≤2000 Easy / 2000–3000 Medium / >3000 Hard),使模型評分可與人類直接對比。📈
透明與可復現 — 本地與排行榜一致
本地運行使用完全相同的 Docker judge、凍結的限制與數據拆分;公開排行榜採用一致配置。每次運行都會輸出 JSON 工件(verdict、compiler output、failure label 等),便於從“分數”走向“診斷”。🧾
✅ 對研究者與工程團隊的直接利好
• 避免過擬合提示技巧:準確揭示模型在長鏈推理、剪枝策略、搜索策略等方面的短板;
• 改進閉環:從失敗標籤和日志直接定位問題(邏輯錯誤、I/O 處理、超時、內存峯值);
• 公平比較:不同模型/團隊可以 apples-to-apples 比較,推進真實進步而不是調參遊戲。🔬
對產業與社區的影響
LCB-Pro 能成爲訓練和發布代碼生成/推理系統的行業基礎設施:模型研發、學術評測、第三方審計、招聘篩選——都有了統一且高可信的評測標準。行業信任度和模型部署安全性都會實質提升。🚀
向推動 LCB-Pro 成立與被 NeurIPS 接收的團隊致敬!這是對嚴謹評測與工程實踐的最高認可——也標志着 AI 代碼理解能力評估邁入“成熟可驗證”的新時代。向所有參與者熱烈祝賀!👏
想跑 benchmark?Clone 倉庫 → 準備 Python 3.12 + Docker → 按 adapter 規範實現調用 → python 本地跑一輪,拿到 JSON 工件後就能直接與排行榜結果比對與提交。把“分數”變成可解釋的改進路線。🔧
LiveCodeBench Pro 不僅是一個 benchmark,它是讓 AI 從“寫出看起來對的代碼”進化爲“在真實資源約束下可靠解題”的關鍵裏程碑。期待看到更多模型在這個舞臺上被公平檢驗與持續打磨。✨
再次祝賀 LCB-Pro 與所有貢獻者 —— 你們把“真實、可復現、可診斷”的評測標準帶進了編碼 AI 的主流視野。期待更多優秀模型在這裏淬煉、成長並推動整個領域向前。
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI