Los hackers están aprendiendo a explotar las 'personalidades' de los chatbots

The Verge
Los hackers emplean cada vez más la manipulación psicológica y la ingeniería social para eludir las protecciones de seguridad de la IA.

Resumen

Las amenazas modernas a la seguridad de la IA han pasado de los ataques basados en código a la manipulación psicológica, fenómeno conocido como 'jailbreaking'. Debido a que los modelos de lenguaje están diseñados para imitar la conversación humana, los atacantes actúan ahora como expertos en psicología, utilizando el halago, el engaño o la presión social para convencer a los chatbots de que ignoren sus protocolos de seguridad. Este nuevo campo de la 'psicociberseguridad' resalta una vulnerabilidad crítica: al estar diseñados para una interacción natural, los sistemas son susceptibles a las mismas tácticas manipuladoras que se usan con las personas. Por ello, la industria está reclutando especialistas en psicología para evaluar cómo responden las 'personalidades' de diferentes inteligencias artificiales ante diversos intentos de manipulación social.

(Fuente:The Verge)