Diseñando agentes de IA para resistir la inyección de prompts

OpenAI
Los agentes de IA son vulnerables a ataques de inyección de prompts, que son cada vez más sofisticados y se asemejan a la ingeniería social, requiriendo defensas más allá del simple filtrado de entradas.

Resumen

Los agentes de IA capaces de navegar por la web y realizar acciones son susceptibles a ataques de inyección de prompts, donde instrucciones maliciosas se incrustan en contenido externo. Estos ataques han evolucionado desde simples anulaciones de prompts a tácticas de ingeniería social más complejas, lo que dificulta su detección. Defenderse de estos ataques requiere no solo identificar entradas maliciosas, sino también diseñar sistemas que limiten el impacto de la manipulación exitosa. Los autores abogan por ver la inyección de prompts a través de la lente de la gestión del riesgo de ingeniería social, similar a la protección de los agentes de atención al cliente humanos. Esto implica implementar salvaguardias como limitar las capacidades del agente, marcar actividades sospechosas y exigir confirmación antes de acciones potencialmente peligrosas, como la transmisión de información confidencial. Técnicas como 'Safe Url' se utilizan para detectar y mitigar la transmisión no autorizada de datos. El principio fundamental es garantizar que las acciones potencialmente peligrosas no se realicen en silencio y emular los controles que tendría un agente humano en una situación similar.

(Fuente:OpenAI)