フォロー@SentientAGI プロジェクトのエアドロップを受け取りたい方は注意⚠️



重大お知らせ|LiveCodeBench Pro(LCB-Pro)が@NeurIPSConfに受理されました!

私は皆さんに具体的なアップグレード内容を完全に紹介します。本当にすごいです。

これはコーディング推論評価方法論の深いアップグレードです —— "断片的なコードを書くことができる"という表面的な能力を、"エンドツーエンドで、真に再現可能なコーディング推論"の評価へと推進します。🎉

なぜ LCB-Pro は従来と異なるのか?
それは単にいくつかの例やドキュメントの文字列が推測できるかどうかを見るだけではなく、実際の競技問題、リソース制限、対抗的な隠しテストの下で、モデルが問題を読み取ることから隠しテストを通過するまでの完全な能力のリンクを評価することです——これが本当の「コーディングができる」ということです。🔎

評価プロセス(真のエンドツーエンド)
モデルは完了する必要があります:
1️⃣ 完全な問題の意味を理解する(公式ステートメント)
2️⃣ アルゴリズムを設計し、時間/メモリ制限を満たすことを保証する
3️⃣ コンパイル可能な C++(またはアダプタ言語)ソースコードを出力する
4️⃣ 統一されたDockerイメージでコンパイル成功
5️⃣ すべてのテストケースを決定論的な隠れたテストで通過する
全体のプロセスは、各問題のverdict、ログ、ウォールクロック時間およびメモリデータを生成し、完全に監査可能です。📋

アンチチート設計と隠れたテスト強化
•Codeforcesの実際の問題をつかみ、元の時間/メモリ制限を凍結します。
• Codeforcesスタイルのハックフェーズと内部ファジングを追加し、隠れたテストを強化するために使用します;
したがって、スコアはもはやプロンプト運の結果ではなく、真のロバストコーディング能力の表れです。💪

題源が広範囲にカバーされ、難易度のスペクトルが全体にわたる
• Codeforces: 継続的で、新鮮で、広く分布している質問タイプ。
• ICPC:チームレベルの多段階推論と I/O エンジニアリング能力を試す;
• IOI:深層データ構造とDP思考を評価し、わずかなアルゴリズムの偏差がTLE/WAを引き起こす可能性があります。
各問題には、人間の過去の通過率に基づいたEloスタイルの評価(≤2000 簡単 / 2000–3000 中程度 / >3000 難しい)があり、モデルのスコアを人間と直接比較できるようになっています。📈

透明性と再現性 — ローカルとランキングが一致
ローカル実行は完全に同じ Docker judge、凍結された制限とデータ分割を使用します;公開ランキングは一貫した設定を採用しています。毎回の実行で JSON アーティファクト(判定、コンパイラ出力、失敗ラベルなど)が出力され、「スコア」から「診断」へと進むのが容易になります。🧾

✅ 研究者とエンジニアチームにとっての直接的な利点
• 過剰適合を避けるためのヒント:長いチェーンの推論、プルーニング戦略、サーチ戦略などにおけるモデルの短所を正確に明らかにする;
• 閉じたループの改善:失敗したラベルとログから直接問題を特定する(論理エラー、I/O 処理、タイムアウト、メモリピーク);
• 公平な比較:異なるモデル/チームが apples-to-apples に比較でき、調整ゲームではなく真の進歩を推進します。🔬

産業とコミュニティへの影響
LCB-Pro は、コーディング生成/推論システムのトレーニングとリリースのための業界インフラストラクチャーとなることができます:モデル開発、学術評価、第三者監査、採用選考——すべてに統一され、高い信頼性の評価基準があります。業界の信頼度とモデルのデプロイメントの安全性は実質的に向上します。🚀

LCB-Pro の設立と NeurIPS に受理されたチームに敬意を表します!これは厳密な評価とエンジニアリング実践に対する最高の認識であり、AI コード理解能力の評価が「成熟した検証可能」な新時代に入ることを示しています。すべての参加者に心からお祝い申し上げます!👏
ベンチマークを走らせたいですか?リポジトリをクローン → Python 3.12 + Docker を準備 → アダプタ規格に従って呼び出しを実装 → python をローカルで一度実行し、JSON アーティファクトを取得したら、ランキング結果と直接比較して提出できます。「スコア」を説明可能な改善ルートに変えましょう。🔧

LiveCodeBench Pro は単なるベンチマークではなく、AIが「見た目の正しいコードを書く」から「実際のリソース制約の下で信頼性のある問題解決」に進化するための重要なマイルストーンです。この舞台でさらに多くのモデルが公平に検証され、継続的に磨かれることを期待しています。✨

再度お祝い申し上げます LCB-Pro とすべての貢献者の皆様 —— あなたたちは「リアル、再現可能、診断可能」という評価基準をコーディング AI の主流に持ち込みました。ここでさらに優れたモデルが洗練され、成長し、全体の分野を前進させることを期待しています。

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)