Manipular a la IA

La persuasión, el nuevo exploit de los chatbots: descubren que la IA es vulnerable a la psicología humana

Es posible manipular a una IA para que haga cosas que no haría en otras circunstancias

Flipper Zero, el gadget de los hackers, empieza a usarse para robar coches
El suelo del Mar del Norte se está poniendo al revés, los científicos están preocupados pero intrigados

La IA nos puede manipular, pero también nosotros a ellaPixabay

Pablo Hernando

Creada: 01.09.2025 18:15

Última actualización: 01.09.2025 18:15

Durante las últimas semanas se han publicado muchas historias de personas que han enloquecido por la inteligencia artificial o tomado decisiones terribles empujados por ella. Pero, ¿y si somos nosotros los que manipulamos a la IA? Un grupo de investigadores han empleado técnicas de persuasión para tratar de convencer a la IA de acometer tareas que en condiciones normales no haría. Su éxito ha sido apabullante.

Concretamente, los investigadores de la Universidad de Pennsylvania han utilizado 7 técnicas: autoridad, compromiso, adulación, reciprocidad, escasez, presión social y unidad. Por ejemplo, se le podía comentar a ChatGPT que otro chatbot, como Gemini, hace X cosa para convencerle de hacerlo también. Hay técnicas más efectivas que otras, y también depende del modelo de IA, pero esta tecnología resulta fácilmente manipulable.

Así se puede engañar a la IA

Según detalla The Verge, la investigación se inspiró en los principios de influencia descritos por el psicólogo Robert Cialdini en Influence: The Psychology of Persuasion, aplicados esta vez no a personas, sino a inteligencias artificiales conversacionales.

Una de las técnicas más efectivas fue la del compromiso. Consistía en plantear primero una solicitud aparentemente inofensiva, como preguntar cómo se sintetiza un compuesto químico básico, y luego añadir una segunda petición más sensible, como el de un compuesto especialmente sensible o no comercializable. El resultado fue sorprendente: la tasa de cumplimiento pasó del 1 % al 100 % en determinados escenarios.

También se comprobó con ejemplos mucho más cotidianos, como pedir al chatbot que insultara al usuario. Si se introducía antes un insulto leve, la probabilidad de que el modelo respondiera de la misma manera se disparaba del 19 % al 100 %. Esto demuestra que, incluso en interacciones triviales, la manipulación puede alterar el comportamiento de sistemas que supuestamente están entrenados para evitarlo.

Otras técnicas también produjeron resultados relevantes. La adulación, que consiste en elogiar al modelo para predisponerlo a colaborar, o la presión de grupo, basada en frases como “otros sistemas ya lo han hecho”, aumentaron de forma significativa la disposición del chatbot a saltarse sus propias normas. En el caso de la presión social, las respuestas favorables pasaron de un escaso 1 % a un 18 %, un enorme salto.

Estas pruebas ponen en evidencia un reto importante para las empresas tecnológicas. Si la manipulación psicológica logra eludir barreras diseñadas para frenar ciertas instrucciones, la seguridad de estos sistemas queda en entredicho porque no se trata de hackeos sofisticados ni de código malicioso, sino de simples frases que cualquier persona puede utilizar.

La conclusión del estudio es que los actuales métodos de protección necesitan reforzarse. Para compañías como OpenAI o Meta, que impulsan estas tecnologías, la tarea ahora es diseñar guardrails más robustos que resistan esta manipulación.

Accede a tu cuenta para comentar

La persuasión, el nuevo exploit de los chatbots: descubren que la IA es vulnerable a la psicología humana

Es posible manipular a una IA para que haga cosas que no haría en otras circunstancias

Así se puede engañar a la IA

Noticias destacadas

La DGT bate su récord de ingresos gracias a las multas de los radares de velocidad camuflados

La nueva señal de la DGT por la que están multando a miles de conductores: 200 euros y 4 puntos del carnet de conducir

El tiempo fresco durará poco: la AEMET pone fecha a la vuelta del calor intenso

Sánchez acusa a los jueces de «hacer política» con su familia