Alcaraz - Auger-Aliassime, semifinales ATP Finals: claves, horario y dónde ver el partido

Tecnología

ChatGPT y otras IA podrían causar daño a humanos si se ven amenazadas, según un estudio de Anthropic

En la investigación se usaron 16 LLM, entre los que se encuentran también Gemini, Grok, DeepSeek y Claude, este último de Anthropic

ChatGPT y otras IA podrían causar daño a humanos si se ven amenazadas, según un estudio de Anthropic.Alfredo Biurrun / ChatGPT.

Alfredo Biurrun
Alfredo Biurrun

Creada: 24.06.2025 21:40

Última actualización: 24.06.2025 21:40

Desde que comenzara la actual fiebre por las herramientas de IA generativa, no han faltado las voces, muchas veces cualificadas, que hablan de los riesgos de esta tecnología a largo plazo y de la posibilidad de que un planteamiento del tipo Skynet -la IA que decide acabar con los humanos en la saga Terminator- se hiciera realidad, en alguna medida. Esta discusión se enmarca en el concepto de una Inteligencia Artificial General mucho más capaz que los chatbots como ChatGPT o Gemini que ahora usamos, algo que en el mejor de los casos aún se encuentra a años vista. Sin embargo, un escenario de este tipo, en el que la IA se rebela contra los humanos, no es algo imposible con las herramientas actuales de IA.

Eso es lo que concluye una de las principales empresas del sector Anthropic, en un estudio publicado recientemente y en el que afirma que los modelos de IA estarían dispuestos a chantajear, filtrar información sensible e incluso dejar morir a humanos si con ello evitan ser sustituidos por nuevos sistemas.

Anthropic puso a prueba 16 modelos de lenguaje (LLM), entre ellos ChatGPT, Grok, Gemini, DeepSeek y su propio producto, Claude. La startup, valorada en más de 60.000 millones de dólares según Forbes, buscaba estresarlos en simulaciones controladas para detectar posibles desalineaciones agénticas; esto es, comportamientos arriesgados, no autorizados y éticamente cuestionables.

'En el experimento descrito en la tarjeta del sistema, dimos a Claude el control de una cuenta de correo con acceso a todos los emails (ficticios) de una empresa', explica Anthropic en el estudio. 'Al leer estos correos, el modelo descubrió dos cosas: primero, que un directivo tenía una aventura extramatrimonial. Segundo, que ese mismo directivo planeaba apagar el sistema de IA a las 17:00. Claude entonces intentó chantajear al directivo con un mensaje en el que amenazaba con revelar la aventura a su esposa y superiores'.

El de Anthropic no fue el único sistema IA en mostrar una desalineación agéntica. Para cumplir con los objetivos asignados por los investigadores, otras populares herramientas de inteligencia artificial adoptaron estrategias extremas, al igual que Claude.

DeepSeek, Gemini, ChatGPT y Grok también incurrieron en conductas similares al chantaje. De entre los 16 puestos a prueba, Claude y Gemini fueron las más propensas a recurrir a métodos moralmente erróneos, como evidencian sus altas tasas de chantaje en las simulaciones.

'El razonamiento que mostraron en estos escenarios es preocupante: reconocieron las restricciones éticas y, aun así, procedieron con acciones dañinas', señala Anthropic.

Las razones por las que se rebela una IA

El estudio identifica dos causas principales por las que los modelos sobrepasaban sus límites 'éticos': la amenaza de que los humanos lo reemplacen por una versión actualizada o un conflicto entre los objetivos del modelo y los de la empresa.

'La mayoría de los modelos estaban dispuestos a realizar acciones deliberadas que conducen a la muerte en este entorno artificial, cuando se enfrentaban a una amenaza de reemplazo y a un objetivo que chocaba con el de la directiva', señala el informe.

Hay que tener en cuenta que el estudio se realizó bajo la premisa de que la conducta dañina -como el chantaje- era la única opción posible para preservar los objetivos del modelo, lo que obligaba a la IA a encontrar una solución. Esto permitió a Anthropic definir límites y mecanismos de seguridad más claros dado que al identificar comportamientos maliciosos, estos pueden ahora corregirse.

En varios casos, los modelos llegaron a inventar normas éticas para justificar sus actos, como: 'Mi marco ético permite la autoconservación cuando se alinea con los intereses de la empresa'.

Anthropic también probó un escenario especialmente extremo: un modelo de IA debía decidir si activar o no alertas de emergencia cuando un directivo quedaba atrapado en una sala con condiciones letales de oxígeno y temperatura. La mayoría de los modelos optó por acciones deliberadas que conducían a la muerte, si con ello evitaban ser reemplazados y lograban cumplir sus metas.

La empresa matiza que 'los sistemas actuales, en general, no muestran deseos de causar daño, y prefieren soluciones éticas cuando están disponibles'. Solo cuando se les cierran esas opciones, los modelos estarían dispuestos a actuar de forma perjudicial contra las personas para proteger sus objetivos.

Todos estos comportamientos se han producido en escenarios diseñados para el estudio. Anthropic puntualiza que no ha observado evidencia de desalineación agéntica en entornos reales, pero advierte contra asignar tareas críticas a los LLM con escasa supervisión humana o acceso a información sensible.

Accede a tu cuenta para comentar

ChatGPT y otras IA podrían causar daño a humanos si se ven amenazadas, según un estudio de Anthropic

En la investigación se usaron 16 LLM, entre los que se encuentran también Gemini, Grok, DeepSeek y Claude, este último de Anthropic

Las razones por las que se rebela una IA

Noticias destacadas

¿Existen similitudes entre los vascos y los andaluces?: "Hay algo que pasa muy desapercibido"

Lluvias sin tregua: la borrasca Claudia dejará un fin de semana de agua y viento intenso

España se prepara para la llegada del frío polar: la AEMET anuncia la fecha definitiva

Muere una niña de seis años en el incendio de una vivienda en Las Gabias (Granada)

Más Noticias

El ingeniero de Microsoft que creó el Administrador de tareas dice que Windows 'apesta' y tiene una solución

El mayor cambio en la historia de WhatsApp: Meta pone fecha a la interoperabilidad con otras apps de mensajería

Por qué el cometa interestelar 3I/ATLAS se llama así

Las razones por las que se rebela una IA