TECNOLOGÍA

Un nuevo desafío de codificación de IA acaba de transmitir sus primeros resultados, y no son bonitas

July 23, 2025

Un nuevo desafío de codificación de IA ha revelado su primer triunfador, y estableció una nueva mostrador para ingenieros de software con AI.

El miércoles a las 5pm PST, el Instituto Laude sin fines de utilidad anunció el primer triunfador del Premio K, un desafío de codificación de IA multironda osado por Databricks y el cofundador de Perplexity Andy Konwinski. El triunfador fue un ingeniero rápido brasileño llamado Eduardo Rocha de Andrade, quien recibirá $ 50,000 por el premio. Pero más sorprendente que la trofeo fue su puntaje final: ganó con respuestas correctas a solo el 7.5% de las preguntas en la prueba.

“Nos alegra activo construido un punto de narración que sea efectivamente difícil”, dijo Konwinski. “Los puntos de narración deberían ser difíciles si van a importar”, continuó, y agregó: “Los puntajes serían diferentes si los grandes laboratorios hubieran entrado con sus modelos más grandes. Pero ese es el punto.

Konwinski ha prometido $ 1 millón al primer maniquí de código extenso que puede obtener más de 90% en la prueba.

Similar al conocido sistema SWE-Bench, el premio K prueba los modelos contra problemas marcados de GitHub como una prueba de qué tan proporcionadamente los modelos pueden reñir con los problemas de programación del mundo positivo. Pero si proporcionadamente SWE-Bench se zócalo en un conjunto fijo de problemas con los que los modelos pueden entrenar, el premio K está diseñado como una “traducción sin contaminación de SWE-Bench”, utilizando un sistema de entrada cronometrado para ampararse contra cualquier entrenamiento específico de narración. Para la primera ronda, los modelos debían vencer antiguamente del 12 de marzo. Los organizadores del premio K luego construyeron la prueba utilizando solo problemas de GitHub marcados a posteriori de esa momento.

El puntaje superior del 7.5% está en impresionado contraste con SWE-Bench en sí, que actualmente muestra una puntuación superior del 75% en su prueba ‘verificada’ más ligera y 34% en su prueba ‘completa’ más dura. Konwinski todavía no está seguro de si la disparidad se debe a la contaminación en el mesa SWE o simplemente al desafío de compendiar nuevos problemas de GitHub, pero prórroga que el plan K del Premio responda la pregunta pronto.

“A medida que obtenemos más carreras de la cosa, tendremos un mejor sentido”, dijo a TechCrunch, “porque esperamos que las personas se adapten a la dinámica de competir en esto cada pocos meses”.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Puede parecer un oportunidad extraño para quedarse corto, dada la amplia serie de herramientas de codificación de IA ya disponibles públicamente, pero con los puntos de narración que se vuelven demasiado fáciles, muchos críticos ven proyectos como el premio K como un paso necesario para resolver El creciente problema de evaluación de AI.

“Soy harto eufórico sobre la construcción de nuevas pruebas para los puntos de narración existentes”, dice el investigador de Princeton Sayash Kapoor, quien presentó una idea similar En un artículo fresco. “Sin tales experimentos, en sinceridad no podemos asegurar si el problema es la contaminación, o incluso simplemente dirigirse a la tabla de clasificación SWE-Bench con un humano en el tirabuzón”.

Para Konwinski, no es solo un mejor punto de narración, sino un desafío extenso para el resto de la industria. “Si escuchas la exageración, es como si deberíamos ver médicos de IA y abogados de IA e ingenieros de software de IA, y eso no es cierto”, dice. “Si ni siquiera podemos obtener más del 10% en un mesa SWE sin contaminación, esa es la demostración de la sinceridad para mí”.

(Tagstotranslate) Andy Konwinski (T) K Premio (T) Laude Institute

Deletrear más Tech News in Spanish