Home TECNOLOGÍA OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

0
OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

Incluso cuando OpenAI trabaja para vigorizar su Navegador Atlas AI contra los ciberataques, la empresa admite que inyecciones inmediatasun tipo de ataque que manipula a los agentes de IA para que sigan instrucciones maliciosas a menudo ocultas en páginas web o correos electrónicos, es un peligro que no desaparecerá pronto, lo que plantea dudas sobre la seguridad con la que los agentes de IA pueden actuar en la web abierta.

“Es poco probable que la inyección rápida, al igual que las estafas y la ingeniería social en la web, alguna vez se ‘resuelva’ por completo”, escribió OpenAI en un artículo del lunes. publicación de blog detallando cómo la firma está reforzando la armadura de Atlas para combatir los incesantes ataques. La compañía admitió que el “modo agente” en ChatGPT Atlas “expande la superficie de amenazas a la seguridad”.

OpenAI lanzó su navegador ChatGPT Atlas en octubre y los investigadores de seguridad se apresuraron a transmitir sus demostraciones, demostrando que era posible escribir algunas palabras en Google Docs que eran capaces de cambiar el comportamiento del navegador subyacente. Ese mismo día, Robusto publicó una publicación de blog explicando que la inyección rápida indirecta es un desafío sistemático para los navegadores impulsados ​​por IA, incluidos El cometa de la perplejidad.

OpenAI no es el único que reconoce que las inyecciones basadas en indicaciones no van a desaparecer. El El Centro Doméstico de Seguridad Cibernética del Reino Unido advirtió a principios de este mes que los ataques de inyección contra aplicaciones de IA generativa “quizás nunca se mitiguen por completo”, lo que pone a los sitios web en peligro de ser víctimas de violaciones de datos. La agencia del gobierno del Reino Unido aconsejó a los profesionales cibernéticos que reduzcan el peligro y el impacto de las inyecciones rápidas, en zona de pensar que los ataques se pueden “detener”.

Por parte de OpenAI, la compañía dijo: “Consideramos la inyección rápida como un desafío de seguridad de la IA a espléndido plazo, y necesitaremos vigorizar continuamente nuestras defensas contra ella”.

¿La respuesta de la empresa a esta tarea de Sísifo? Un ciclo proactivo y de respuesta rápida que, según la empresa, se muestra prometedor desde el principio para ayudar a descubrir nuevas estrategias de ataque internamente ayer de que sean explotadas “en la naturaleza”.

Esto no es del todo diferente de lo que rivales como Anthropic y Google han estado diciendo: que para guerrear contra el peligro persistente de ataques rápidos, las defensas deben estratificarse y someterse a pruebas de estrés continuamente. El trabajo fresco de Googlepor ejemplo, se centra en controles a nivel arquitectónico y de políticas para sistemas agentes.

Pero donde OpenAI está adoptando un rumbo diferente es con su “atacante automatizado basado en LLM”. Este atacante es básicamente un autómata que OpenAI entrenó, utilizando enseñanza reforzado, para desempeñar el papel de un hacker que búsqueda formas de suceder instrucciones maliciosas a un agente de IA.

El autómata puede probar el ataque en simulación ayer de usarlo de verdad, y el simulador muestra cómo pensaría la IA objetivo y qué acciones tomaría si viera el ataque. Luego, el autómata puede estudiar esa respuesta, modificar el ataque e intentarlo una y otra vez. Esa información sobre el razonamiento interno de la IA objetivo es poco a lo que los externos no tienen llegada, por lo que, en teoría, el autómata de OpenAI debería poder encontrar fallas más rápido que un atacante del mundo actual.

Es una táctica global en las pruebas de seguridad de la IA: crear un agente para encontrar los casos extremos y probarlos rápidamente en simulación.

“Nuestro atacante entrenado (en enseñanza por refuerzo) puede dirigir a un agente para que ejecute flujos de trabajo sofisticados y dañinos a espléndido plazo que se desarrollan en decenas (o incluso cientos) de pasos”, escribió OpenAI. “Asimismo observamos nuevas estrategias de ataque que no aparecieron en nuestra campaña de formación de equipos humanos ni en informes externos”.

una captura de pantalla que muestra un ataque de inyección rápida en un navegador OpenAI.
Créditos de imagen:Campechano AI

En una demostración (en la foto de hacia lo alto), OpenAI mostró cómo su atacante automatizado deslizó un correo electrónico desconfiado en la bandeja de entrada de un adjudicatario. Cuando más tarde el agente de IA escaneó la bandeja de entrada, siguió las instrucciones ocultas en el correo electrónico y envió un mensaje de renuncia en zona de redactar una respuesta de fuera de la oficina. Pero a posteriori de la puesta al día de seguridad, el “modo agente” pudo detectar con éxito el intento de inyección y señalizarlo al adjudicatario, según la empresa.

La compañía dice que si aceptablemente es difícil defenderse contra una inyección rápida de modo infalible, se está apoyando en pruebas a gran escalera y ciclos de parches más rápidos para vigorizar sus sistemas ayer de que aparezcan en ataques del mundo actual.

Un portavoz de OpenAI se negó a compartir si la puesta al día de la seguridad de Atlas ha poliedro como resultado una reducción mensurable en las inyecciones exitosas, pero dice que la empresa ha estado trabajando con terceros para proteger Atlas contra las inyecciones rápidas desde ayer del divulgación.

Rami McCarthy, investigador principal de seguridad en empresa de ciberseguridad Wizdice que el enseñanza por refuerzo es una forma de adaptarse continuamente al comportamiento del atacante, pero es solo una parte del panorama.

“Una forma útil de razonar sobre el peligro en los sistemas de IA es la autonomía multiplicada por el llegada”, dijo McCarthy a TechCrunch.

“Los navegadores agentes tienden a instalarse una parte desafiante de ese espacio: una autonomía moderada combinada con un llegada muy suspensión”, dijo McCarthy. “Muchas recomendaciones actuales reflejan esa compensación. Delimitar el llegada con inicio de sesión reduce principalmente la exposición, mientras que exigir la revisión de las solicitudes de confirmación limita la autonomía”.

Esas son dos de las recomendaciones de OpenAI para que los usuarios reduzcan su propio peligro, y un portavoz dijo que Atlas igualmente está capacitado para obtener la confirmación del adjudicatario ayer de mandar mensajes o realizar pagos. OpenAI igualmente sugiere que los usuarios den a los agentes instrucciones específicas, en zona de brindarles llegada a su bandeja de entrada y decirles que “tomen las medidas necesarias”.

“La amplia vastedad hace que sea más realizable que el contenido oculto o desconfiado influya en el agente, incluso cuando existen salvaguardas”, según OpenAI.

Si aceptablemente OpenAI dice que proteger a los usuarios de Atlas contra inyecciones rápidas es una máxima prioridad, McCarthy invita a cierto desconfianza en cuanto al retorno de la inversión para los navegadores propensos a riesgos.

“Para la mayoría de los casos de uso cotidianos, los navegadores agentes aún no ofrecen el valencia suficiente para alegar su perfil de peligro presente”, dijo McCarthy a TechCrunch. “El peligro es suspensión poliedro su llegada a datos confidenciales como correo electrónico e información de cuota, aunque ese llegada igualmente es lo que los hace poderosos. Ese nivelación evolucionará, pero hoy en día las compensaciones siguen siendo muy reales”.

Estudiar más Tech News in Spanish