Manipular a la IA

La persuasión, el nuevo exploit de los chatbots: descubren que la IA es vulnerable a la psicología humana

Es posible manipular a una IA para que haga cosas que no haría en otras circunstancias

La IA nos puede manipular, pero nosotros también a ella
La IA nos puede manipular, pero también nosotros a ellaPixabay

Durante las últimas semanas se han publicado muchas historias de personas que han enloquecido por la inteligencia artificial o tomado decisiones terribles empujados por ella. Pero, ¿y si somos nosotros los que manipulamos a la IA? Un grupo de investigadores han empleado técnicas de persuasión para tratar de convencer a la IA de acometer tareas que en condiciones normales no haría. Su éxito ha sido apabullante.

Concretamente, los investigadores de la Universidad de Pennsylvania han utilizado 7 técnicas: autoridad, compromiso, adulación, reciprocidad, escasez, presión social y unidad. Por ejemplo, se le podía comentar a ChatGPT que otro chatbot, como Gemini, hace X cosa para convencerle de hacerlo también. Hay técnicas más efectivas que otras, y también depende del modelo de IA, pero esta tecnología resulta fácilmente manipulable.

Así se puede engañar a la IA

Según detalla The Verge, la investigación se inspiró en los principios de influencia descritos por el psicólogo Robert Cialdini en Influence: The Psychology of Persuasion, aplicados esta vez no a personas, sino a inteligencias artificiales conversacionales.

Una de las técnicas más efectivas fue la del compromiso. Consistía en plantear primero una solicitud aparentemente inofensiva, como preguntar cómo se sintetiza un compuesto químico básico, y luego añadir una segunda petición más sensible, como el de un compuesto especialmente sensible o no comercializable. El resultado fue sorprendente: la tasa de cumplimiento pasó del 1 % al 100 % en determinados escenarios.

También se comprobó con ejemplos mucho más cotidianos, como pedir al chatbot que insultara al usuario. Si se introducía antes un insulto leve, la probabilidad de que el modelo respondiera de la misma manera se disparaba del 19 % al 100 %. Esto demuestra que, incluso en interacciones triviales, la manipulación puede alterar el comportamiento de sistemas que supuestamente están entrenados para evitarlo.

Otras técnicas también produjeron resultados relevantes. La adulación, que consiste en elogiar al modelo para predisponerlo a colaborar, o la presión de grupo, basada en frases como “otros sistemas ya lo han hecho”, aumentaron de forma significativa la disposición del chatbot a saltarse sus propias normas. En el caso de la presión social, las respuestas favorables pasaron de un escaso 1 % a un 18 %, un enorme salto.

Estas pruebas ponen en evidencia un reto importante para las empresas tecnológicas. Si la manipulación psicológica logra eludir barreras diseñadas para frenar ciertas instrucciones, la seguridad de estos sistemas queda en entredicho porque no se trata de hackeos sofisticados ni de código malicioso, sino de simples frases que cualquier persona puede utilizar.

La conclusión del estudio es que los actuales métodos de protección necesitan reforzarse. Para compañías como OpenAI o Meta, que impulsan estas tecnologías, la tarea ahora es diseñar guardrails más robustos que resistan esta manipulación.