2025-10-19 08:15:59

theo dõi @SentientAGI muốn nhận được Airdrop của dự án chú ý⚠️

Thông báo quan trọng｜LiveCodeBench Pro（LCB-Pro）được @NeurIPSConf chấp nhận!

Tôi sẽ giới thiệu đầy đủ cho mọi người về nội dung nâng cấp cụ thể, thật sự rất tuyệt vời.

Đây là một nâng cấp sâu sắc về phương pháp đánh giá suy diễn mã - nó nâng cao khả năng bề mặt "viết đoạn mã" lên đánh giá "suy diễn mã đầu đến cuối, có thể tái hiện thực".🎉

Tại sao LCB-Pro lại khác với những lần trước?
Nó không chỉ xem xét một vài ví dụ hoặc docstring có thể được đoán hay không, mà là đánh giá khả năng hoàn chỉnh của mô hình từ việc đọc đề bài đến việc vượt qua bài kiểm tra ẩn dưới các bài toán thi thực tế, giới hạn tài nguyên bị đóng băng và kiểm tra ẩn đối kháng - đó mới là "có thể mã hóa" thực sự.🔎

Quy trình đánh giá (đầu cuối thực sự)
Mô hình phải hoàn thành:
1️⃣ Hiểu rõ ý nghĩa của câu hỏi hoàn chỉnh (tuyên bố chính thức)
2️⃣ Thiết kế thuật toán và đảm bảo tuân thủ giới hạn thời gian/bộ nhớ
3️⃣ Xuất mã nguồn C++ (hoặc ngôn ngữ adapter) có thể biên dịch
4️⃣ Biên dịch thành công trong hình ảnh Docker thống nhất
5️⃣ Thông qua tất cả các trường hợp trong bài kiểm tra ẩn định tính.
Toàn bộ quy trình sẽ sản xuất verdict cho từng câu hỏi, nhật ký, thời gian thực tế và dữ liệu bộ nhớ, hoàn toàn có thể kiểm toán.📋

Thiết kế chống gian lận & Tăng cường ẩn thử nghiệm
• Lấy đề thi thực tế từ Codeforces và đóng băng giới hạn thời gian/bộ nhớ gốc;
• Tăng cường giai đoạn hack theo phong cách Codeforces và kiểm tra nội bộ, để làm cứng các bài kiểm tra ẩn;
Do đó, điểm số không còn là vận may của prompt, mà là sự thể hiện thực sự của khả năng mã hóa mạnh mẽ.

Đề tài phong phú, độ khó đa dạng
• Codeforces：Liên tục, mới mẻ, phân bố kiểu bài rộng;
• ICPC：Kiểm tra khả năng suy luận đa bước và kỹ năng I/O của đội.
• IOI：Đánh giá cấu trúc dữ liệu sâu và tư duy DP, sai lệch thuật toán nhẹ có thể dẫn đến TLE/WA.
Mỗi câu hỏi còn có xếp hạng theo phong cách Elo dựa trên tỷ lệ thông qua của con người trong lịch sử (≤2000 Dễ / 2000–3000 Trung bình / >3000 Khó), giúp điểm số của mô hình có thể so sánh trực tiếp với con người.📈

Minh bạch và có thể tái hiện — nhất quán với địa phương và bảng xếp hạng
Chạy cục bộ sử dụng Docker judge hoàn toàn giống nhau, giới hạn đóng băng và phân tách dữ liệu; bảng xếp hạng công khai áp dụng cấu hình nhất quán. Mỗi lần chạy sẽ xuất ra các tác phẩm JSON (phán quyết, đầu ra trình biên dịch, nhãn thất bại, v.v.), thuận tiện cho việc chuyển từ "điểm số" sang "chẩn đoán".🧾

✅ Lợi ích trực tiếp cho các nhà nghiên cứu và đội ngũ kỹ sư
• Tránh kỹ thuật gợi ý quá mức: tiết lộ chính xác những điểm yếu của mô hình trong các khía cạnh như suy luận chuỗi dài, chiến lược cắt tỉa, chiến lược tìm kiếm, v.v.
• Cải tiến vòng khép kín: xác định vấn đề trực tiếp từ nhãn thất bại và nhật ký (lỗi logic, xử lý I/O, thời gian chờ, đỉnh bộ nhớ);
• So sánh công bằng: Các mô hình/nhóm khác nhau có thể so sánh một cách công bằng, thúc đẩy tiến bộ thực sự thay vì chơi trò điều chỉnh tham số.🔬

Tác động đến ngành và cộng đồng
LCB-Pro có thể trở thành cơ sở hạ tầng ngành cho việc đào tạo và phát hành hệ thống sinh mã/đưa ra suy luận: phát triển mô hình, đánh giá học thuật, kiểm toán bên thứ ba, sàng lọc tuyển dụng - tất cả đều có tiêu chuẩn đánh giá thống nhất và đáng tin cậy cao. Độ tin cậy của ngành và an toàn trong triển khai mô hình sẽ được nâng cao đáng kể.🚀

Xin chúc mừng đội ngũ đã thúc đẩy sự thành lập LCB-Pro và được NeurIPS chấp nhận! Đây là sự công nhận cao nhất cho việc đánh giá nghiêm ngặt và thực tiễn kỹ thuật - cũng đánh dấu việc đánh giá khả năng hiểu mã AI bước vào kỷ nguyên "có thể xác minh trưởng thành". Chúc mừng tất cả các tham gia viên! 👏
Muốn chạy benchmark? Clone kho → Chuẩn bị Python 3.12 + Docker → Thực hiện gọi theo quy chuẩn adapter → Chạy một lượt python tại địa phương, lấy được JSON artifact sau đó có thể so sánh và nộp với kết quả bảng xếp hạng. Biến "điểm số" thành lộ trình cải tiến có thể giải thích.🔧

LiveCodeBench Pro không chỉ là một benchmark, mà còn là cột mốc quan trọng giúp AI tiến hóa từ "viết ra những đoạn mã trông có vẻ đúng" thành "giải quyết vấn đề một cách đáng tin cậy dưới sự hạn chế thực tế". Mong chờ được thấy nhiều mô hình hơn được kiểm tra công bằng và liên tục mài giũa trên sân khấu này.✨

Một lần nữa chúc mừng LCB-Pro và tất cả các đóng góp viên —— các bạn đã đưa tiêu chuẩn đánh giá "thực, có thể tái hiện, có thể chẩn đoán" vào tầm nhìn chủ đạo của AI mã hóa. Mong chờ nhiều mô hình xuất sắc hơn sẽ được rèn giũa, phát triển và thúc đẩy toàn bộ lĩnh vực tiến lên.

@abhishek095

@sewoong79

@namyura_

@vivekkolli

@KaitoAI

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

0/400

Không có bình luận

Chủ đề thịnh hànhXem thêm
#ETHReboundSoon?
5.8K Phổ biến
#WhaleAdds$250MBTCLongs
4.9K Phổ biến
#BigTokenUnlocksAhead
3.5K Phổ biến
#FedHostsInnovationSummit
1.1K Phổ biến
#ShowMyAlphaPoints
200.3K Phổ biến

Gate Fun hotXem thêm
1GCATGCAT
Vốn hóa:$1.7MNgười nắm giữ:10578
2GDOGGdog
Vốn hóa:$1.1MNgười nắm giữ:4792
3芝麻开门芝麻开门
Vốn hóa:$622.7KNgười nắm giữ:124
4GMGMEME
Vốn hóa:$98.8KNgười nắm giữ:2792
5GatsbyGatsby
Vốn hóa:$120.2KNgười nắm giữ:180

Ghim

sơ đồ trang web