2025-10-19 08:15:59

ikuti @SentientAGI ingin mendapatkan perhatian untuk airdrop proyek ⚠️

Pengumuman Penting｜LiveCodeBench Pro (LCB-Pro) diterima oleh @NeurIPSConf!

Saya akan memberikan penjelasan lengkap tentang konten upgrade yang spesifik, benar-benar luar biasa.

Ini adalah peningkatan mendalam terhadap metodologi evaluasi pengkodean — ia mengangkat kemampuan permukaan "menulis potongan kode" ke evaluasi "end-to-end, dapat direproduksi secara nyata" dalam pengkodean. 🎉

Mengapa LCB-Pro berbeda dari yang sebelumnya?
Ini bukan hanya tentang melihat beberapa contoh atau docstring yang dapat ditebak, tetapi menilai kemampuan lengkap model dari membaca soal hingga melewati pengujian tersembunyi di bawah tantangan kompetisi nyata, pembekuan sumber daya, dan pengujian tersembunyi yang bersifat antagonis — inilah yang benar-benar disebut "dapat mengkode".🔎

Proses penilaian (end-to-end yang sebenarnya)
Model harus diselesaikan:
1️⃣ Pahami arti lengkap dari soal (pernyataan resmi)
2️⃣ Rancang algoritma dan pastikan sesuai dengan batasan waktu/memori
3️⃣ Mengeluarkan kode sumber C++ (atau bahasa adapter) yang dapat dikompilasi
4️⃣ Kompilasi berhasil dalam gambar Docker yang seragam
5️⃣ Lulus semua kasus uji di bawah pengujian tersembunyi yang deterministik
Seluruh proses akan menghasilkan verdict setiap pertanyaan, log, waktu wall-clock, dan data memori, sepenuhnya dapat diaudit.📋

Desain anti-cheat & penguatan tes tersembunyi
• Mengambil soal pertandingan nyata dari Codeforces dan membekukan batasan waktu/memori asli;
• Tambahkan tahap hack bergaya Codeforces dan fuzzing internal, untuk menguatkan pengujian tersembunyi;
Oleh karena itu, skor tidak lagi merupakan keberuntungan prompt, tetapi benar-benar mencerminkan kemampuan pengkodean yang robust.💪

Sumber topik mencakup luas, spektrum kesulitan lengkap
• Codeforces：berkelanjutan, segar, distribusi jenis soal yang luas;
• ICPC: Menguji kemampuan pemecahan masalah tim dalam berbagai langkah serta kemampuan rekayasa I/O;
• IOI: Menguji struktur data yang mendalam dan pemikiran DP, sedikit penyimpangan algoritma dapat menyebabkan TLE/WA.
Setiap pertanyaan juga memiliki penilaian gaya Elo berdasarkan tingkat kelulusan manusia sejarah (≤2000 Mudah / 2000–3000 Sedang / >3000 Sulit), sehingga penilaian model dapat dibandingkan langsung dengan manusia.📈

Transparan dan Dapat Direproduksi - Konsisten dengan Lokal dan Papan Peringkat
Menjalankan secara lokal menggunakan Docker judge yang sama persis, dengan batasan yang dibekukan dan pemisahan data; papan peringkat publik menggunakan konfigurasi yang konsisten. Setiap kali dijalankan, akan menghasilkan artefak JSON (verdict, compiler output, failure label, dll), memudahkan transisi dari "skor" ke "diagnosis".🧾

✅ Manfaat langsung bagi peneliti dan tim teknik
• Hindari teknik prompt overfitting: secara akurat mengungkapkan kekurangan model dalam aspek penalaran rantai panjang, strategi pemangkasan, strategi pencarian, dan lainnya;
• Perbaikan lingkaran tertutup: langsung mengidentifikasi masalah dari label kesalahan dan log (kesalahan logika, pemrosesan I/O, waktu habis, puncak memori);
• Perbandingan yang adil: Model/tim yang berbeda dapat dibandingkan secara apples-to-apples, mendorong kemajuan yang nyata dan bukan permainan penyesuaian parameter.🔬

Dampak terhadap industri dan komunitas
LCB-Pro dapat menjadi infrastruktur industri untuk pelatihan dan penerbitan sistem penghasil/penalaran kode: pengembangan model, evaluasi akademis, audit pihak ketiga, penyaringan rekrutmen—semuanya memiliki standar evaluasi yang seragam dan sangat dapat dipercaya. Tingkat kepercayaan industri dan keamanan penyebaran model akan meningkat secara signifikan.🚀

Menghormati tim yang mendorong pendirian LCB-Pro dan diterima oleh NeurIPS! Ini adalah pengakuan tertinggi terhadap evaluasi yang ketat dan praktik rekayasa — yang juga menandai masuknya penilaian kemampuan pemahaman kode AI ke dalam era "terverifikasi yang matang". Selamat kepada semua peserta! 👏
Ingin menjalankan benchmark? Clone repositori → Siapkan Python 3.12 + Docker → Implementasikan panggilan sesuai spesifikasi adapter → jalankan python secara lokal sekali, setelah mendapatkan artefak JSON, Anda dapat langsung membandingkan dan mengirimkan hasilnya dengan hasil peringkat. Ubah "skor" menjadi jalur perbaikan yang dapat dijelaskan.🔧

LiveCodeBench Pro bukan hanya sebuah benchmark, tetapi merupakan tonggak kunci yang memungkinkan AI berevolusi dari "menulis kode yang terlihat benar" menjadi "menyelesaikan masalah secara andal di bawah kendala sumber daya nyata". Kami berharap dapat melihat lebih banyak model diuji secara adil dan terus diasah di panggung ini.✨

Sekali lagi selamat kepada LCB-Pro dan semua kontributor —— kalian telah membawa standar evaluasi "nyata, dapat direproduksi, dan dapat didiagnosis" ke dalam sorotan utama pengkodean AI. Kami berharap lebih banyak model unggul akan ditempa, tumbuh, dan mendorong seluruh bidang ke depan di sini.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik TrendingLihat Lebih Banyak
#ETHReboundSoon?
14K Popularitas
#WhaleAdds$250MBTCLongs
11.5K Popularitas
#BigTokenUnlocksAhead
8.1K Popularitas
#FedHostsInnovationSummit
2.1K Popularitas
#ShowMyAlphaPoints
201.8K Popularitas

Hot Gate FunLihat Lebih Banyak
1GDOGGdog
MC:$938KHolder:7172
2GMGMEME
MC:$116.4KHolder:2790
3芝麻人生芝麻人生
MC:$107.6KHolder:7327
4GCATGCAT
MC:$1.2MHolder:10579
5MIMAMiMa
MC:$73.3KHolder:379

Sematkan

peta situs