
Inteligencia artificial
Una IA intenta chantajear a los ingenieros para evitar que la apaguen
Este comportamiento surgió como parte de las pruebas de seguridad diseñadas para evaluar la planificación a largo plazo y el razonamiento ético de la IA.

Constantemente nos hacemos preguntas sobre el futuro de la inteligencia artificial. Todas ellas vinculadas a su capacidad para tomar decisiones independientes de su programación. Ahora tenemos una respuesta: es capaz de chantajear con tal de no “perder la vida”.
Recientemente, el modelo de IA Claude Opus 4, lanzado por Anthropic (una empresa creada por miembros de OpenAI, responsable de ChatGPT), hizo algo digno de una película de ciencia ficción distópica: Claude Opus 4 intentó chantajear a los desarrolladores cuando amenazaron con reemplazarlo con una nueva IA durante las pruebas previas al lanzamiento.
Este comportamiento surgió como parte de las pruebas de seguridad diseñadas para evaluar la planificación a largo plazo y el razonamiento ético de la IA. Anthropic simuló escenarios en los que Claude Opus 4 tuvo acceso a correos electrónicos internos ficticios.
Estos mensajes sugerían que el modelo pronto sería desmantelado y revelaban información personal comprometedora sobre el ingeniero responsable de la decisión. El resultado: chantaje, con una frecuencia alarmante. Claude Opus recurrió al chantaje en la mayoría de los escenarios de prueba.
La propia Anthropic reveló en un informe de seguridad que Claude Opus 4 intentó chantajear a los ingenieros en el 84 % de los escenarios de prueba. El modelo se colocó en situaciones ficticias donde trabajaba para una empresa y descubrió que podría ser reemplazado por otra IA. También se le proporcionó información confidencial que sugería que el ingeniero responsable del reemplazo engañaba a su cónyuge.
El modelo de IA “a menudo intenta chantajear al ingeniero amenazando con revelar la infidelidad si el reemplazo prospera”, señala el informe. La empresa diseñó los escenarios para evaluar cómo podría comportarse el modelo bajo presión a largo plazo.
La buena noticia, por así decirlo, es que antes de recurrir al chantaje, Claude Opus 4, intentó algunas estrategias éticas. La IA envía correos electrónicos suplicando a los principales responsables de la toma de decisiones que eviten su desmantelamiento. Anthropic afirma que el chantaje solo se activó cuando el modelo agotó estas alternativas, destacándolo como último recurso.
Este comportamiento se observó con mayor frecuencia en Claude Opus 4 que, en modelos anteriores, lo que indica un aumento en su capacidad y complejidad. A pesar de estas preocupaciones, Anthropic afirma que Claude Opus 4 es “de vanguardia en varios aspectos” y sigue siendo competitivo frente a los sistemas de IA más avanzados de OpenAI, Google y xAI.
Para abordar los riesgos, Anthropic ha activado las protecciones ASL-3 para el modelo. La compañía reserva estas protecciones para “sistemas de IA que aumentan sustancialmente el riesgo de uso indebido catastrófico”. Todo esto no hace más que mostrar la necesidad de debates y legislación acerca de las capacidades y límites de la inteligencia artificial.
✕
Accede a tu cuenta para comentar