A nuevo trabajo de investigación De OpenAi pregunta por qué modelos de idiomas grandes como GPT-5 y chatbots como ChatGPT todavía se alucinan, y si se puede hacer poco para sujetar esas alucinaciones.
En Una publicación de blog que resume el gacetaOpenai define las alucinaciones como “declaraciones plausibles pero falsas generadas por los modelos de idiomas”, y reconoce que a pesar de las mejoras, las alucinaciones “siguen siendo un desafío fundamental para todos los modelos de idiomas grandes”, uno que nunca será completamente eliminado.
Para ilustrar el punto, los investigadores dicen que cuando preguntaron “un chatbot ampliamente usado” sobre el título de Ph.D. de Adam Tauman Kalai. Disertación, obtuvieron tres respuestas diferentes, todas ellas equivocadas. (Kalai es uno de los autores del artículo). Luego preguntaron sobre su cumpleaños y recibieron tres fechas diferentes. Una vez más, todos estaban equivocados.
¿Cómo puede un chatbot estar tan inexacto y sonar tan segura de su incorrecto? Los investigadores sugieren que las alucinaciones surgen, en parte, conveniente a un proceso previo a la medida que se centra en obtener que los modelos predecieran correctamente la venidero palabra, sin etiquetas verdaderas o falsas adjuntas a las declaraciones de entrenamiento: “El maniquí solo ve ejemplos positivos de jerga fluido y debe aproximar la distribución caudillo”.
“La ortografía y los paréntesis siguen patrones consistentes, por lo que los errores allí desaparecen con la escalera”, escriben. “Pero los hechos arbitrarios de depreciación frecuencia, como el cumpleaños de una mascota, no se pueden predecir solo con los patrones y, por lo tanto, conducen a alucinaciones”.
Sin incautación, la decisión propuesta del documento se centra menos en el proceso de preperación auténtico y más en cómo se evalúan los modelos de jerga grandes. Argumenta que los modelos de evaluación actuales no causan alucinaciones en sí mismas, pero “establecen los incentivos incorrectos”.
Los investigadores comparan estas evaluaciones con el tipo de pruebas de opción múltiple, la presentimiento aleatoria tiene sentido, porque “puede tener suerte y tener razón”, mientras deja la respuesta en blanco “garantiza un cero”.
Evento de TechCrunch
San Francisco
|
27-29 de octubre de 2025
“De la misma guisa, cuando los modelos se califican solo en precisión, el porcentaje de preguntas que hacen exactamente perfectamente, se les alienta a adivinar en empleo de afirmar ‘no sé'”, dicen.
La decisión propuesta, entonces, es similar a las pruebas (como el SAT) que incluyen “gafe (puntuación) para respuestas incorrectas o crédito parcial por dejar preguntas en blanco para desalentar la presentimiento ciega”. Del mismo modo, Openai dice que las evaluaciones del maniquí deben “penalizar los errores seguros más de lo que penaliza la incertidumbre y dar crédito parcial por las expresiones apropiadas de incertidumbre”.
Y los investigadores argumentan que no es suficiente introducir “algunas nuevas pruebas conscientes de la incertidumbre”. En su empleo, “las Evals ampliamente utilizadas y basadas en la precisión deben actualizarse para que su puntuación desaliente la presentimiento”.
“Si los marcadores principales siguen gratificando conjeturas de la suerte, los modelos seguirán aprendiendo a adivinar”, dicen los investigadores.
(Tagstotranslate) OpenAi
Repasar más Tech News in Spanish