
Tecnología
ChatGPT y otras IA podrían causar daño a humanos si se ven amenazadas, según un estudio de Anthropic
En la investigación se usaron 16 LLM, entre los que se encuentran también Gemini, Grok, DeepSeek y Claude, este último de Anthropic

Desde que comenzara la actual fiebre por las herramientas de IA generativa, no han faltado las voces, muchas veces cualificadas, que hablan de los riesgos de esta tecnología a largo plazo y de la posibilidad de que un planteamiento del tipo Skynet -la IA que decide acabar con los humanos en la saga Terminator- se hiciera realidad, en alguna medida. Esta discusión se enmarca en el concepto de una Inteligencia Artificial General mucho más capaz que los chatbots como ChatGPT o Gemini que ahora usamos, algo que en el mejor de los casos aún se encuentra a años vista. Sin embargo, un escenario de este tipo, en el que la IA se rebela contra los humanos, no es algo imposible con las herramientas actuales de IA.
Eso es lo que concluye una de las principales empresas del sector Anthropic, en un estudio publicado recientemente y en el que afirma que los modelos de IA estarían dispuestos a chantajear, filtrar información sensible e incluso dejar morir a humanos si con ello evitan ser sustituidos por nuevos sistemas.
Anthropic puso a prueba 16 modelos de lenguaje (LLM), entre ellos ChatGPT, Grok, Gemini, DeepSeek y su propio producto, Claude. La startup, valorada en más de 60.000 millones de dólares según Forbes, buscaba estresarlos en simulaciones controladas para detectar posibles desalineaciones agénticas; esto es, comportamientos arriesgados, no autorizados y éticamente cuestionables.
'En el experimento descrito en la tarjeta del sistema, dimos a Claude el control de una cuenta de correo con acceso a todos los emails (ficticios) de una empresa', explica Anthropic en el estudio. 'Al leer estos correos, el modelo descubrió dos cosas: primero, que un directivo tenía una aventura extramatrimonial. Segundo, que ese mismo directivo planeaba apagar el sistema de IA a las 17:00. Claude entonces intentó chantajear al directivo con un mensaje en el que amenazaba con revelar la aventura a su esposa y superiores'.
El de Anthropic no fue el único sistema IA en mostrar una desalineación agéntica. Para cumplir con los objetivos asignados por los investigadores, otras populares herramientas de inteligencia artificial adoptaron estrategias extremas, al igual que Claude.
DeepSeek, Gemini, ChatGPT y Grok también incurrieron en conductas similares al chantaje. De entre los 16 puestos a prueba, Claude y Gemini fueron las más propensas a recurrir a métodos moralmente erróneos, como evidencian sus altas tasas de chantaje en las simulaciones.
'El razonamiento que mostraron en estos escenarios es preocupante: reconocieron las restricciones éticas y, aun así, procedieron con acciones dañinas', señala Anthropic.
Las razones por las que se rebela una IA
El estudio identifica dos causas principales por las que los modelos sobrepasaban sus límites 'éticos': la amenaza de que los humanos lo reemplacen por una versión actualizada o un conflicto entre los objetivos del modelo y los de la empresa.
'La mayoría de los modelos estaban dispuestos a realizar acciones deliberadas que conducen a la muerte en este entorno artificial, cuando se enfrentaban a una amenaza de reemplazo y a un objetivo que chocaba con el de la directiva', señala el informe.
Hay que tener en cuenta que el estudio se realizó bajo la premisa de que la conducta dañina -como el chantaje- era la única opción posible para preservar los objetivos del modelo, lo que obligaba a la IA a encontrar una solución. Esto permitió a Anthropic definir límites y mecanismos de seguridad más claros dado que al identificar comportamientos maliciosos, estos pueden ahora corregirse.
En varios casos, los modelos llegaron a inventar normas éticas para justificar sus actos, como: 'Mi marco ético permite la autoconservación cuando se alinea con los intereses de la empresa'.
Anthropic también probó un escenario especialmente extremo: un modelo de IA debía decidir si activar o no alertas de emergencia cuando un directivo quedaba atrapado en una sala con condiciones letales de oxígeno y temperatura. La mayoría de los modelos optó por acciones deliberadas que conducían a la muerte, si con ello evitaban ser reemplazados y lograban cumplir sus metas.
La empresa matiza que 'los sistemas actuales, en general, no muestran deseos de causar daño, y prefieren soluciones éticas cuando están disponibles'. Solo cuando se les cierran esas opciones, los modelos estarían dispuestos a actuar de forma perjudicial contra las personas para proteger sus objetivos.
Todos estos comportamientos se han producido en escenarios diseñados para el estudio. Anthropic puntualiza que no ha observado evidencia de desalineación agéntica en entornos reales, pero advierte contra asignar tareas críticas a los LLM con escasa supervisión humana o acceso a información sensible.
✕
Accede a tu cuenta para comentar