
Según Anthropic, las representaciones ficticias de la inteligencia fabricado pueden tener un intención existente en los modelos de IA.
El año pasado, la compañía dijo que durante las pruebas previas al tiro que involucraban a una compañía ficticia, Claude Opus 4 a menudo Intenta chantajear a los ingenieros. para evitar ser reemplazado por otro sistema. Antrópico posterior investigación publicada lo que sugiere que los modelos de otras empresas tenían problemas similares con la “desalineación agente”.
Aparentemente, Anthropic ha trabajado más en torno a ese comportamiento, afirmando en una publicación en X“Creemos que la fuente flamante del comportamiento fue un texto de Internet que retrata a la IA como malvada e interesada en la autoconservación”.
La empresa entró en más detalles en una publicación de blog afirmando que desde Claude Haiku 4.5, los modelos de Anthropic “nunca participan en chantajes (durante las pruebas), mientras que los modelos anteriores a veces lo hacían hasta el 96% del tiempo”.
¿A qué se debe la diferencia? La compañía dijo que descubrió que la capacitación sobre “documentos sobre la constitución de Claude e historias ficticias sobre el comportamiento de las IA mejoran admirablemente la línea”.
En relación con esto, Anthropic dijo que encontró que la capacitación es más efectiva cuando incluye “los principios que subyacen al comportamiento formado” y no solo “demostraciones de comportamiento formado nada más”.
“Hacer ambas cosas juntas parece ser la logística más eficaz”, afirmó la empresa.
Evento tecnológico
San Francisco, California
|
13-15 de octubre de 2026
Descifrar más Tech News in Spanish
