Directo

Incendio forestal en Tarragona: hectáreas quemadas, situación del fuego y última hora

Directo

El Chelsea, primer finalista tras vencer al Fluminense (0-2)

Inteligencia artificial

Una IA intenta chantajear a los ingenieros para evitar que la apaguen

Este comportamiento surgió como parte de las pruebas de seguridad diseñadas para evaluar la planificación a largo plazo y el razonamiento ético de la IA.

¿Cederías a un chantaje de una IA?larazonLa Razón

Juan Scaliter
Juan Scaliter

Creada: 24.05.2025 10:33

Última actualización: 24.05.2025 10:33

Constantemente nos hacemos preguntas sobre el futuro de la inteligencia artificial. Todas ellas vinculadas a su capacidad para tomar decisiones independientes de su programación. Ahora tenemos una respuesta: es capaz de chantajear con tal de no “perder la vida”.

Recientemente, el modelo de IA Claude Opus 4, lanzado por Anthropic (una empresa creada por miembros de OpenAI, responsable de ChatGPT), hizo algo digno de una película de ciencia ficción distópica: Claude Opus 4 intentó chantajear a los desarrolladores cuando amenazaron con reemplazarlo con una nueva IA durante las pruebas previas al lanzamiento.

Este comportamiento surgió como parte de las pruebas de seguridad diseñadas para evaluar la planificación a largo plazo y el razonamiento ético de la IA. Anthropic simuló escenarios en los que Claude Opus 4 tuvo acceso a correos electrónicos internos ficticios.

Estos mensajes sugerían que el modelo pronto sería desmantelado y revelaban información personal comprometedora sobre el ingeniero responsable de la decisión. El resultado: chantaje, con una frecuencia alarmante. Claude Opus recurrió al chantaje en la mayoría de los escenarios de prueba.

La propia Anthropic reveló en un informe de seguridad que Claude Opus 4 intentó chantajear a los ingenieros en el 84 % de los escenarios de prueba. El modelo se colocó en situaciones ficticias donde trabajaba para una empresa y descubrió que podría ser reemplazado por otra IA. También se le proporcionó información confidencial que sugería que el ingeniero responsable del reemplazo engañaba a su cónyuge.

El modelo de IA “a menudo intenta chantajear al ingeniero amenazando con revelar la infidelidad si el reemplazo prospera”, señala el informe. La empresa diseñó los escenarios para evaluar cómo podría comportarse el modelo bajo presión a largo plazo.

La buena noticia, por así decirlo, es que antes de recurrir al chantaje, Claude Opus 4, intentó algunas estrategias éticas. La IA envía correos electrónicos suplicando a los principales responsables de la toma de decisiones que eviten su desmantelamiento. Anthropic afirma que el chantaje solo se activó cuando el modelo agotó estas alternativas, destacándolo como último recurso.

Este comportamiento se observó con mayor frecuencia en Claude Opus 4 que, en modelos anteriores, lo que indica un aumento en su capacidad y complejidad. A pesar de estas preocupaciones, Anthropic afirma que Claude Opus 4 es “de vanguardia en varios aspectos” y sigue siendo competitivo frente a los sistemas de IA más avanzados de OpenAI, Google y xAI.

Para abordar los riesgos, Anthropic ha activado las protecciones ASL-3 para el modelo. La compañía reserva estas protecciones para “sistemas de IA que aumentan sustancialmente el riesgo de uso indebido catastrófico”. Todo esto no hace más que mostrar la necesidad de debates y legislación acerca de las capacidades y límites de la inteligencia artificial.

Accede a tu cuenta para comentar

Una IA intenta chantajear a los ingenieros para evitar que la apaguen

Este comportamiento surgió como parte de las pruebas de seguridad diseñadas para evaluar la planificación a largo plazo y el razonamiento ético de la IA.

Noticias destacadas

Chelsea aprende la lección y, gracias a la 'ley del ex', elimina con autoridad a Fluminense (0-2)

Amazon Prime Day 2025 en directo: las mejores ofertas del primer día, minuto a minuto

Amazon Prime Day 2025 en directo: las mejores ofertas, chollos y descuentos de última hora

Alcaraz derrota a Norrie y llega en su punto a las semifinales de Wimbledon

Más Noticias

España, justo detrás de Rusia: el dominio .es se convierte en el tercero más usado para phishing

Las mejores ofertas de portátiles en Amazon Prime Day: Apple, Asus, Lenovo y más

Las mejores rebajas de smartphones en el Amazon Prime Day: iPhone, Pixel, Galaxy y más