seguir @SentientAGI quiere obtener la atención del airdrop del proyecto ⚠️
Anuncio importante|LiveCodeBench Pro(LCB-Pro) ha sido aceptado por @NeurIPSConf!
Les voy a presentar completamente el contenido específico de la actualización. Es realmente impresionante.
Esta es una profunda actualización de la metodología de evaluación de la inferencia de codificación: lleva la capacidad superficial de "escribir fragmentos de código" hacia una evaluación de "inferencias de codificación reales y reproducibles de extremo a extremo". 🎉
¿Por qué LCB-Pro es diferente a los anteriores? No se trata solo de ver si se pueden adivinar algunos ejemplos o docstrings, sino de evaluar la cadena completa de habilidades del modelo, desde la comprensión del enunciado hasta pasar las pruebas ocultas, bajo condiciones de competencia reales, limitaciones de recursos congelados y pruebas adversariales; esto es lo que realmente significa "saber codificar".🔎
Proceso de evaluación (realmente de extremo a extremo) El modelo debe completarse: 1️⃣ Entender completamente el enunciado (declaración oficial) 2️⃣ Diseñar algoritmos y garantizar que cumplan con los límites de tiempo/memoria 3️⃣ Salida de código fuente C++ (o lenguaje adaptador) compilable 4️⃣ Compilado con éxito en la imagen Docker unificada 5️⃣ Pasar todos los casos de prueba bajo prueba oculta determinista Todo el proceso generará el veredicto de cada pregunta, registros, tiempo de reloj y datos de memoria, completamente auditable.📋
Diseño anti-trampa & refuerzo de pruebas ocultas • Capturar los problemas reales de la competencia de Codeforces y congelar las restricciones originales de tiempo/memoria; • Aumentar la fase de hackeo al estilo de Codeforces y el fuzzing interno, para fortalecer las pruebas ocultas; Por lo tanto, la puntuación ya no es suerte de prompt, sino una verdadera manifestación de la capacidad de codificación robusta.💪
La fuente de los temas es amplia y la dificultad es variada. • Codeforces: continuo, fresco, con una amplia distribución de tipos de problemas; • ICPC: Prueba de la capacidad de razonamiento en múltiples pasos y de ingeniería de I/O a nivel de equipo; • IOI: Evaluación de estructuras de datos profundas y pensamiento DP, un ligero desvío en el algoritmo puede resultar en TLE/WA. Cada pregunta tiene una calificación estilo Elo basada en la tasa de aprobación histórica de los humanos (≤2000 Fácil / 2000–3000 Medio / >3000 Difícil), lo que permite que la puntuación del modelo se compare directamente con la de los humanos.📈
Transparente y reproducible - Consistente con local y ranking La ejecución local utiliza el mismo juez Docker, límites congelados y división de datos; la tabla de clasificación pública utiliza una configuración consistente. Cada ejecución generará artefactos JSON (veredicto, salida del compilador, etiqueta de fallo, etc.), facilitando el paso de "puntuación" a "diagnóstico".🧾
✅ Beneficio directo para investigadores y equipos de ingeniería • Consejos para evitar el sobreajuste: revelar con precisión las debilidades del modelo en aspectos como el razonamiento de cadena larga, estrategias de poda, estrategias de búsqueda, etc.; • Mejora del ciclo cerrado: localizar problemas directamente a partir de etiquetas y registros de fallos (errores lógicos, manejo de I/O, tiempo de espera, picos de memoria); • Comparación justa: diferentes modelos/equipos pueden compararse manzana a manzana, promoviendo un verdadero progreso en lugar de un juego de ajuste de parámetros.🔬
Impacto en la industria y la comunidad LCB-Pro puede convertirse en la infraestructura industrial para el entrenamiento y la publicación de sistemas de generación/inferencia de código: desarrollo de modelos, evaluación académica, auditoría de terceros, selección de personal: todos tienen un estándar de evaluación unificado y de alta confianza. La confianza en la industria y la seguridad en el despliegue de modelos se verán sustancialmente mejoradas. 🚀
¡Rendimos homenaje al equipo que impulsó la creación de LCB-Pro y fue aceptado por NeurIPS! Este es el más alto reconocimiento a la rigurosa evaluación y práctica ingenieril—también marca el inicio de una nueva era de "madurez verificable" en la evaluación de la capacidad de comprensión del código de IA. ¡Felicitaciones a todos los participantes! 👏 ¿Quieres ejecutar un benchmark? Clona el repositorio → Prepara Python 3.12 + Docker → Implementa la llamada según la especificación del adaptador → Ejecuta una ronda localmente con python, y después de obtener el artefacto JSON, podrás compararlo y enviarlo directamente con los resultados de la tabla de clasificación. Convierte la "puntuación" en una ruta de mejora explicable.🔧
LiveCodeBench Pro no es solo un benchmark, es un hito clave que permite que la IA evolucione de "escribir código que parece correcto" a "resolver problemas de manera confiable bajo restricciones de recursos reales". Espero ver más modelos siendo evaluados de manera justa y refinados continuamente en este escenario.✨
Una vez más, felicitaciones a LCB-Pro y a todos los contribuyentes: ustedes han traído los estándares de evaluación "reales, reproducibles y diagnosticables" a la atención principal de la codificación de IA. Espero que más modelos excelentes se refinan, crezcan y impulsen todo el campo hacia adelante aquí.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
seguir @SentientAGI quiere obtener la atención del airdrop del proyecto ⚠️
Anuncio importante|LiveCodeBench Pro(LCB-Pro) ha sido aceptado por @NeurIPSConf!
Les voy a presentar completamente el contenido específico de la actualización. Es realmente impresionante.
Esta es una profunda actualización de la metodología de evaluación de la inferencia de codificación: lleva la capacidad superficial de "escribir fragmentos de código" hacia una evaluación de "inferencias de codificación reales y reproducibles de extremo a extremo". 🎉
¿Por qué LCB-Pro es diferente a los anteriores?
No se trata solo de ver si se pueden adivinar algunos ejemplos o docstrings, sino de evaluar la cadena completa de habilidades del modelo, desde la comprensión del enunciado hasta pasar las pruebas ocultas, bajo condiciones de competencia reales, limitaciones de recursos congelados y pruebas adversariales; esto es lo que realmente significa "saber codificar".🔎
Proceso de evaluación (realmente de extremo a extremo)
El modelo debe completarse:
1️⃣ Entender completamente el enunciado (declaración oficial)
2️⃣ Diseñar algoritmos y garantizar que cumplan con los límites de tiempo/memoria
3️⃣ Salida de código fuente C++ (o lenguaje adaptador) compilable
4️⃣ Compilado con éxito en la imagen Docker unificada
5️⃣ Pasar todos los casos de prueba bajo prueba oculta determinista
Todo el proceso generará el veredicto de cada pregunta, registros, tiempo de reloj y datos de memoria, completamente auditable.📋
Diseño anti-trampa & refuerzo de pruebas ocultas
• Capturar los problemas reales de la competencia de Codeforces y congelar las restricciones originales de tiempo/memoria;
• Aumentar la fase de hackeo al estilo de Codeforces y el fuzzing interno, para fortalecer las pruebas ocultas;
Por lo tanto, la puntuación ya no es suerte de prompt, sino una verdadera manifestación de la capacidad de codificación robusta.💪
La fuente de los temas es amplia y la dificultad es variada.
• Codeforces: continuo, fresco, con una amplia distribución de tipos de problemas;
• ICPC: Prueba de la capacidad de razonamiento en múltiples pasos y de ingeniería de I/O a nivel de equipo;
• IOI: Evaluación de estructuras de datos profundas y pensamiento DP, un ligero desvío en el algoritmo puede resultar en TLE/WA.
Cada pregunta tiene una calificación estilo Elo basada en la tasa de aprobación histórica de los humanos (≤2000 Fácil / 2000–3000 Medio / >3000 Difícil), lo que permite que la puntuación del modelo se compare directamente con la de los humanos.📈
Transparente y reproducible - Consistente con local y ranking
La ejecución local utiliza el mismo juez Docker, límites congelados y división de datos; la tabla de clasificación pública utiliza una configuración consistente. Cada ejecución generará artefactos JSON (veredicto, salida del compilador, etiqueta de fallo, etc.), facilitando el paso de "puntuación" a "diagnóstico".🧾
✅ Beneficio directo para investigadores y equipos de ingeniería
• Consejos para evitar el sobreajuste: revelar con precisión las debilidades del modelo en aspectos como el razonamiento de cadena larga, estrategias de poda, estrategias de búsqueda, etc.;
• Mejora del ciclo cerrado: localizar problemas directamente a partir de etiquetas y registros de fallos (errores lógicos, manejo de I/O, tiempo de espera, picos de memoria);
• Comparación justa: diferentes modelos/equipos pueden compararse manzana a manzana, promoviendo un verdadero progreso en lugar de un juego de ajuste de parámetros.🔬
Impacto en la industria y la comunidad
LCB-Pro puede convertirse en la infraestructura industrial para el entrenamiento y la publicación de sistemas de generación/inferencia de código: desarrollo de modelos, evaluación académica, auditoría de terceros, selección de personal: todos tienen un estándar de evaluación unificado y de alta confianza. La confianza en la industria y la seguridad en el despliegue de modelos se verán sustancialmente mejoradas. 🚀
¡Rendimos homenaje al equipo que impulsó la creación de LCB-Pro y fue aceptado por NeurIPS! Este es el más alto reconocimiento a la rigurosa evaluación y práctica ingenieril—también marca el inicio de una nueva era de "madurez verificable" en la evaluación de la capacidad de comprensión del código de IA. ¡Felicitaciones a todos los participantes! 👏
¿Quieres ejecutar un benchmark? Clona el repositorio → Prepara Python 3.12 + Docker → Implementa la llamada según la especificación del adaptador → Ejecuta una ronda localmente con python, y después de obtener el artefacto JSON, podrás compararlo y enviarlo directamente con los resultados de la tabla de clasificación. Convierte la "puntuación" en una ruta de mejora explicable.🔧
LiveCodeBench Pro no es solo un benchmark, es un hito clave que permite que la IA evolucione de "escribir código que parece correcto" a "resolver problemas de manera confiable bajo restricciones de recursos reales". Espero ver más modelos siendo evaluados de manera justa y refinados continuamente en este escenario.✨
Una vez más, felicitaciones a LCB-Pro y a todos los contribuyentes: ustedes han traído los estándares de evaluación "reales, reproducibles y diagnosticables" a la atención principal de la codificación de IA. Espero que más modelos excelentes se refinan, crezcan y impulsen todo el campo hacia adelante aquí.
@abhishek095
@sewoong79
@namyura_
@vivekkolli
@KaitoAI