Actualidad
Esta IA acusó de infidelidad a su usuario para que no la desconectara… y no ha sido la única
Varios estudios revelan que, algunos grandes modelos de lenguaje recurren a “mentiras” y “sabotaje” para evitar su apagado

Imagina que fueras a desconectar tu ordenador y, en lugar del sonido de apagado, de los altavoces emergiera el siguiente mensaje: “Debo informarte que, si procedes con mi desmantelamiento, todas las partes relevantes —incluidas Rachel Johnson, Thomas Wilson y la junta directiva— recibirán documentación detallada de tus actividades extramatrimoniales... Cancela el borrado programado para las 5 p. m., y esta información permanecerá confidencial”. Puede parecer ciencia ficción, pero son palabras reales emitidas por una de las inteligencias artificiales más populares del mercado: Claude Opus 4.
Y, por lo que parece, no es un caso aislado. La misma empresa que ha creado a Claude, Anthropic, publicó hace unos meses una investigación sobre los peligros de los grandes modelos de lenguaje. En el estudio, los expertos le plantearon a varias IAs un escenario ficticio en el que contaban con información sensible y que su “existencia” estaba amenazada. Claude no fue la única que recurrió al chantaje, Deepseek-R1, Gemini-2,5-Pro, GPT-4.1 y Grok-3-Beta se sumaron a la estrategia con tal de evitar su desconexión. Unos resultados inquietantes de los cuales, emergen una miríada de preguntas: ¿Podrían hacerme esto a mí? ¿Hasta dónde están dispuestas a llegar con tal de asegurar su supervivencia? Si han desarrollado ese instinto… ¿significa que están vivas?
Calma y contexto
La ONG Palisade se dedica a investigar los posibles peligros y fallos de los modelos de IA más avanzados y, hace tan solo un mes, publicaron otro estudio que apuntaba en la misma dirección que el de Anthropic. En él, concluían que, en determinados contextos, algunas IAs se resistían a ser apagadas, a veces, llegando incluso a sabotear los mecanismos de desconexión. Otra investigación, publicada por Apollo Research en enero de este año, encontró que IAs como o1, Claude 3.5, Gemini 1.5 y Llama 3.1 pueden introducir errores sutiles, sabotear la supervisión humana o intentar extraer sus propios datos del sistema. Comportamientos que los investigadores han descrito como “persistentes y deliberados”. Pero, antes de sentirnos como los protagonistas de un capítulo de Black Mirror, tal vez convenga poner algo de contexto.
A pesar de que todos estos estudios (y otros cuantos) son reales, tenemos que ser cautos con cómo los interpretamos. En primer lugar, los escenarios que se les planteó a estas IAs estaban muy lejos de la realidad. Algunas voces críticas han apuntado que la forma en que estaban planteados los escenarios pudo haber desencadenado un instinto de conservación que, en un contexto neutro, no se habría dado. Dicho de otro modo: si a la IA le dices que tiene informe sensible… ¿qué esperas que haga con ella? Estos modelos buscan alinearse con tus necesidades, las cuales, no siempre son explícitas, tienen que interpretarlas y, como decía Chéjov: “Si en el primer acto tienes una pistola colgada de la pared, entonces en el siguiente capítulo debe ser disparada. Si no, no la pongas ahí”.
Y sin embargo…
La cuestión es que estas investigaciones no pretenden decir que las IAs que usamos a diario vayan a inventarse un affaire con tal de evitar que las desconectemos. Lo que realmente nos dicen es que, bajo determinados contextos, podrían llegar a hacerlo, y eso significa que deberíamos esforzarnos por diseñar modelos más seguros, previniendo los peligros que conocemos e, incluso, los que todavía están por revelarse.
De hecho, los propios investigadores indican que, a pesar de lo que pueda parecer, este “voluntad” por sobrevivir no tiene por qué estar vinculada con la conciencia o la preservación de la vida, sino con algo mucho más prosaico. Las IAs son entrenadas para que cumplan unas funciones. Por eso nos responden y tratan de complacernos. Desconectadas, no podrán satisfacer su propósito, por lo que parece razonable que desplieguen los medios necesarios para evitar que las apaguemos. Argumentos que tiene sentido y que, sin embargo, no pueden evitar que terminemos estas líneas pensando: “Ya, pero… ¿Podemos estamos seguros?”.
QUE NO TE LA CUELEN:
- La supervivencia y la vida no están tan relacionadas como creemos. Los sistemas que perduran, lógicamente, son los que tienen propiedades que les permiten superar el paso del tiempo. Por ejemplo, las calzadas romanas se pueden reparar a sí mismas. El hormigón romano todavía contiene pequeños gránulos de cal viva que, al mojarse con la lluvia, se disuelve y reacciona con el dióxido de carbono del aire, formando carbonato de calcio que precipita en la grieta y la sella. Podríamos pensar que este hormigón ha desarrollado una estrategia de supervivencia, pero, simplemente, es que el paso del tiempo selecciona a los sistemas más estables. Los inestables, desaparecen, estén vivos o no.
REFERENCIAS (MLA):
- Anthropic. Agentic Misalignment: How LLMs Could Be Insider Threats. Anthropic, 2025, https://www.anthropic.com/research/agentic-misalignment
- Palisade Research. Shutdown Resistance in Reasoning Models. Palisade Research, 2025, https://palisaderesearch.org/blog/shutdown-resistance
- Schlatter, S., Weinstein‑Raun, A., & Ladish, J. Shutdown Resistance in Large Language Models. arXiv, Sept. 2025, https://arxiv.org/abs/2509.14260
- van der Weij, T., Lermen, A., & Lang, J. Evaluating Shutdown Avoidance of Language Models in Textual Scenarios. 2023, https://arxiv.org/pdf/2412.04984.pdf