El viernes pasado, OpenAI presentó un nuevo sistema de codificación llamado Codex, diseñado para realizar tareas de programación complejas a partir de comandos de habla natural. Codex se mueve a OpenAi a una nueva cohorte de herramientas de codificación de agente que tan pronto como comienza a tomar forma.
Desde el copiloto temprano de Github hasta las herramientas contemporáneas como Cursor y Windsurf, la mayoría de los asistentes de codificación de IA funcionan como una forma de autocompletar excepcionalmente inteligente. Las herramientas generalmente viven en un entorno de incremento integrado, y los usuarios interactúan directamente con el código generado por IA. La posibilidad de simplemente asignar una tarea y regresar cuando está terminado está en gran medida fuera de ámbito.
Pero estas nuevas herramientas de codificación de agente, dirigidas por productos como Devin, Agente de swe, Mangasy el Codex OpenAI mencionado anteriormente, están diseñados para funcionar sin que los usuarios tengan que ver el código. El objetivo es ejecutar como el administrador de un equipo de ingeniería, asignando problemas a través de sistemas en el puesto de trabajo como Asana o Slack y registrarse cuando se ha aprehendido una posibilidad.
Para los creyentes en formas de IA mucho capaz, es el sucesivo paso racional en una progresión natural de la automatización que se hace cargo de más y más trabajo de software.
“Al principio, la gentío acaba de escribir el código presionando cada pulsación de teclas”, explica Kilian Lieret, investigador de Princeton y miembro del equipo de Swe-Agent. “Github Copilot fue el primer producto que ofreció un efectivo auto-complete, que es una especie de etapa dos. Todavía estás absolutamente en el caracolillo, pero a veces puedes tomar un tropel”.
El objetivo de los sistemas de agente es ir más allá de los entornos de desarrolladores por completo, en puesto de presentar a los agentes de codificación un problema y dejarlos resolverlo por su cuenta. “Llevamos las cosas a la capa de filial, donde solo asigno un noticia de error y el bot comercio de solucionarlo de guisa completamente autónoma”, dice Lieret.
Es un objetivo avaricioso, y hasta ahora, ha demostrado ser difícil.
Luego de que Devin generalmente estuvo adecuado a fines de 2024, dibujó mordaz crítica de expertos en youtube, así como una crítica más medida de un cliente temprano en Respuesta.Ai. La impresión normal fue común para los veteranos que codifican vibraciones: con tantos errores, supervisar los modelos requiere tanto trabajo como hacer la tarea manualmente. (Si proporcionadamente el despliegue de Devin ha sido un poco difícil, no ha impedido que los recaudadores de fondos reconozcan el potencial: en marzo, la empresa matriz de Devin, Cognition AI,, según los informes, recaudó cientos de millones de dólares a una valoración de $ 4 mil millones.)
Incluso los partidarios de la tecnología advierten contra la codificación de ambientes no supervisada, al ver a los nuevos agentes de codificación como medios poderosos en un proceso de incremento supervisado por humanos.
“En este momento, y diría que, en el futuro previsible, un humano tiene que intervenir en el momento de la revisión del código para mirar el código que se ha escrito”, dice Robert Brennan, CEO de All Hands AI, que mantiene abiertos. “He trillado a varias personas trabajar en un desastre simplemente acelerando automáticamente cada parte de código que el agente escribe. Se sale de control rápidamente”.
Las alucinaciones además son un problema continuo. Brennan recuerda un incidente en el que, cuando se le pregunta sobre una API que se había arrojado a posteriori del corte de datos de entrenamiento del agente de OpenHands, el agente fabricó detalles de una API que se ajustaba a la descripción. Todas las manos, la IA dice que está trabajando en sistemas para atrapar estas alucinaciones ayer de que puedan causar daño, pero no hay una posibilidad simple.
Podría decirse que la mejor medida del progreso de la programación de agentes es el Tablas de clasificación SWE-Benchdonde los desarrolladores pueden probar sus modelos con un conjunto de problemas no resueltos de los repositorios abiertos de GitHub. OpenHands actualmente ocupa el primer puesto en la tabla de clasificación verificada, resolviendo el 65.8% del conjunto de problemas. Operai afirma que uno de los modelos que impulsan el Codex, Codex-1, puede hacerlo mejor, enumerando un puntaje del 72.1% en su anuncio, aunque el puntaje llegó con algunas advertencias y no se ha verificado independientemente.
La preocupación entre muchos en la industria de la tecnología es que los puntajes de relato altos no necesariamente se traducen en una codificación de agente verdaderamente sin duda. Si los codificadores de agente solo pueden resolver tres de cada cuatro problemas, requerirán una supervisión significativa de los desarrolladores humanos, particularmente cuando abordan sistemas complejos con múltiples etapas.
Como la mayoría de las herramientas de inteligencia químico, la esperanza es que las mejoras en los modelos de fundaciones vendrán a un ritmo constante, lo que eventualmente permite que los sistemas de codificación de agente se conviertan en herramientas de desarrollador confiables. Pero encontrar formas de ejecutar las alucinaciones y otros problemas de confiabilidad será crucial para conmover allí.
“Creo que hay un pequeño finalidad de barrera de sonido”, dice Brennan. “La pregunta es, ¿cuánta confianza puede cambiar a los agentes, para que se eliminen más de su carga de trabajo al final del día?”
(Tagstotranslate) Codificación de vibra