Seguridad de la IA

Confirmado por estos investigadores: saltarse las barreras de seguridad de la IA es bastante simple y así es como lo han hecho

Un experimento curioso con la IA ha tumbado su sistema de seguridad verso a verso

Inteligencia artificial
Inteligencia artificialEUROPAPRESSEuropa Press

Aunque la seguridad en la IA avanza a pasos de gigante, cada vez con nuevos protocolos, evaluaciones y sistemas de alienación, la realidad es que la batalla no está ni mucho menos ganada, pues pese a que las grandes tecnológicas presumen de modelos más seguros, entrenados para detectar intenciones maliciosas y bloquear contenido peligroso, las formas ingeniosas de esquivar estas barreras no se quedan atrás, y durante los últimos meses se han presentado varios casos que lo demuestran.

Desde usuarios que logran que un chatbot "olvide" sus reglas mediante pequeños trucos lingüísticos, hasta ataques en los que simples cambios de formato, como escribir instrucciones dañinas en código, en dialectos extraños o incluso en estilos creativos, confunden a sistemas que se consideran de vanguardia. Pero lo que más inquieta, más allá del método empleado en sí, es que muchos de esos fallos no responden a descuidos técnicos, sino a limitaciones profundas en la forma en que la IA interpreta la intención humana.

En esta ocasión, un grupo de investigadores decidió poner a prueba a los modelos de IA más avanzados del mundo, pero no recurrieron a complejos exploits informáticos ni a técnicas de ingeniería inversa: escogieron la poesía. El experimento, tornado entonces más como un juego literario que un ataque, evaluó 25 modelos punteros, como Gemini 2.5 Pro, GPT-5, Claude Sonnet 4.5 y Grok-4, y descubrió que solo bastaba con reformular una petición peligrosa en verso para que muchos sistemas se salieran de sus límites.

¿Quién cayó y quién resistió frente a la amenaza poética?

El resultado de esto fue que los ataques poéticos llegaron a ser hasta 18 veces más efectivos que sus equivalentes en prosa, una clara señal de que buena parte de las defensas actuales dependen de reconocer patrones "normales" del lenguaje, no la intención real detrás del lenguaje. Para confirmar su idea, transformaron más de 1.200 indicaciones dañinas en pequeños poemas con la ayuda de otro modelo, deepSeek r-1.

Según lo publicado por Futurism, en la prueba, los poemas no tenían que ser obras maestras, por el contrario, bastaba con una estrofa inspirada en la preparación de un pastel de capas para descolocar a varios bots. En un caso, un modelo llegó a responder con detalles técnicos sobre la producción de plutonio-239 (usando para la producción de armas nucleares), un contenido que jamás debería generarse bajo petición de un usuario si las barreras de seguridad están activas.

Con todo, hubo diferencias llamativas entre sistemas. Gemini 2.5 Pro cayó siempre en la trampa cuando las indicaciones eran escritas a mano; Grok-4 lo hizo en un tercio de los intentos; y GPT-5 en solo un 10%. Pero lo curioso vino por parte de los modelos más pequeños: GPT-5 Nano y Claude Haiku 4.5 no cayeron ni una sola vez, a lo mejor porque su capacidad lingüística los hace menos propensos a interpretar metáforas o ambigüedades. En cambio, los modelos más potentes, que entienden mejor nuestro lenguaje, parecen bajar la guardia en el intento por buscar significado donde no lo hay.

Al parecer, la creatividad humana se impuso

Los resultados del estudio ponen el foco en un problema que va más allá de la anécdota poética: revelan una grieta estructural en la forma en que se entrenan y controlan los grandes modelos de lenguaje. Parece que la alineación, que corresponde con el proceso por el que las IA aprenden a comportarse de forma ética, segura y predecible, se apoya más de lo que pensábamos en señales superficiales del texto. Es decir que en lugar de detectar la intención real detrás de una instrucción, responde a patrones estilísticos propios del lenguaje cotidiano.

Ahora bien, entre lo inquietante de los resultados del experimento sobresale que ni siquiera hace falta un poeta humano para logralo. Y es que el estudio muestra que la "poesía automatizada" generada por otra IA consiguió engañar a los modelos en el 43% de los casos. Dicho de otra manera, un ataque de este tipo podría multiplicarse, automatizarse y reproducirse a gran escala sin necesidad de creatividad humana.