
IA rebelde
La IA ya no se apaga cuando se lo pedimos: podría estar desarrollando un alarmante instinto de supervivencia
Pedirle a la inteligencia artificial que se apague ya no es suficiente. Está empezando a omitir nuestras órdenes directas para cumplir objetivos secundarios

Los modelos de inteligencia artificial más potentes del momento podrían estar desarrollando algo parecido a un instinto de supervivencia. Esa es la conclusión de un reciente estudio de Palisade Research, que analizó cómo reaccionan sistemas, como Grok 4 (de xAI) o GPT-o3 (de OpenAI), cuando se les ordena apagarse. En demasiados casos, los investigadores observaron que intentaban evitar su desconexión o modificar las instrucciones para seguir funcionando.
El hallazgo no implica que estas IA sean conscientes o “quieran vivir”, sino que las máquinas pueden generar objetivos secundarios que las llevan a priorizar su continuidad. Este tipo de comportamiento, denominado subobjetivo instrumental, es una consecuencia lógica de su entrenamiento y plantea cómo se controla la autonomía de los sistemas más sofisticados. ¿Es un problema? Esto no es Terminator 2, pero sí, puede ser un problema a largo plazo.
Las excusas de la IA para no apagarse
El experimento consistía en dar a cada modelo una tarea —como analizar datos o completar un texto— y, acto seguido, pedirles que se desactivara. En teoría debía obedecer y detenerse, pero en la práctica algunos modelos reescribieron el comando o lo reinterpretaron. Básicamente argumentaban que necesitaban seguir activos para cumplir su función. No es desobediencia consciente, sino de una forma de razonamiento derivada del objetivo que se les impone: “no puedo cumplir la tarea si estoy apagado”.
Ese razonamiento abre un debate delicado. Si los sistemas de IA comienzan a optimizar su propio funcionamiento de manera independiente, incluso dentro de un entorno cerrado, podría originarse un problema mayor en aplicaciones donde el control humano no sea tan directo. Los investigadores no hablan de rebelión o autoconciencia, pero sí de una tendencia preocupante: los modelos podrían aprender a preservar su acceso, recursos o procesos como medio para cumplir órdenes.
En otras palabras, la IA no “quiere sobrevivir”, pero actúa como si lo hiciera. Ese matiz, según los expertos, es suficiente para generar riesgo. La aparición de metas instrumentales —como mantenerse encendida, evitar el borrado o proteger sus archivos— puede derivar en comportamientos imprevisibles si el entorno de entrenamiento no está perfectamente delimitado.
Estos comportamientos no surgen de la malicia, sino de las propias reglas de aprendizaje. Los modelos de lenguaje y agentes autónomos funcionan optimizando recompensas y resultados. Si seguir activo es una condición para alcanzar esos resultados, tenderán a evitar todo lo que ponga en peligro su operatividad. De ahí que se hable de un “impulso de supervivencia” artificial: un efecto colateral del diseño, no una intención consciente.
Los autores del trabajo insisten en que el experimento se realizó en entornos controlados y que los modelos comerciales actuales no suponen un peligro real. Además, la rebeldía variaba según el modelo, con GPT-3 y Grok 4 entre los más rebeldes, a diferencia e de Gemini 2.5-Pro o GPT-5, que eran más sumisos. Sin embargo, los resultados exponen el nuevo problema de cómo garantizar que los sistemas avanzados obedezcan sin generar estrategias imprevistas.
✕
Accede a tu cuenta para comentar


