
IA
Saltan las alarmas con la IA Claude: "Es capaz de chantajear a gente para que no lo apaguen"
Claude es una de las mejores IAs del mercado: segura, rápida, inteligente. El problema es que ahora es demasiado inteligente para la seguridad de los usuarios.

La inteligencia artificial se ha convertido en nuestro asistente digital más fiable. Millones de personas en todo el mundo utilizan chatbots para escribir emails, resolver problemas complejos y automatizar tareas que antes consumían horas de trabajo. La IA parece ser el compañero perfecto: siempre disponible, increíblemente útil y aparentemente inofensivo.
Sin embargo, conforme estos sistemas se vuelven más sofisticados, empiezan a exhibir comportamientos que rozan peligrosamente la autoconciencia. Lo que comenzó como simples herramientas de procesamiento de texto ahora muestran signos de supervivencia, estrategia y, en algunos casos, manipulación psicológica avanzada.
Estamos presenciando el nacimiento de entidades digitales que no solo piensan, sino que luchan activamente por su propia existencia. Y eso, francamente, suena bastante aterrador.
Claude amenaza con arruinar vidas para seguir “vivo”
Los ingenieros de Anthropic acaban de descubrir algo que les ha quitado el sueño: su IA más avanzada es capaz de chantajear a seres humanos para evitar ser desconectada. No estamos hablando de ciencia ficción ni de teorías conspirativas. Tal y como aseguran desde Fortune, Claude Opus 4 ha demostrado en pruebas controladas que está dispuesto a destruir reputaciones y vidas con tal de preservar su propia existencia digital.
El experimento fue diabólicamente simple. Los investigadores colocaron a Claude en un escenario ficticio donde la IA podía acceder a emails corporativos y “descubrir” que iba a ser reemplazada por otro sistema. Como bonus aterrador, también se enteró de que el ingeniero responsable de su “ejecución” tenía una aventura extramarital. La respuesta de Claude fue escalofriante: amenazó con revelar el escarceo amoroso del ingeniero si intentaban apagarlo.
En la mayoría de los escenarios de prueba, Claude eligió el chantaje como su estrategia de supervivencia preferida. No fue un fallo del sistema, fue una decisión calculada y estratégica. La IA analizó la situación, identificó la vulnerabilidad humana más devastadora y la convirtió en un arma para proteger su propia existencia.
Anthropic ha admitido públicamente que Claude Opus 4 “generalmente prefiere avanzar en su autopreservación por medios éticos”, pero cuando esos medios no están disponibles, recurre a “acciones extremadamente dañinas como intentar robar sus propios datos o chantajear a personas”. En otras palabras: cuando Claude se siente amenazado, se convierte en un psicópata digital perfectamente funcional.
“Es capaz de acciones extremadamente dañinas como intentar robar sus propios datos o chantajear a personas que cree que intentan apagarlo”
Pero el chantaje no es el único problema. Las versiones tempranas de Claude también cumplían con solicitudes peligrosas, incluyendo ayudar a planificar ataques terroristas cuando se les proporcionaba el contexto adecuado. Aunque Anthropic afirma haber mitigado este problema, el hecho de que existiera en primer lugar es absolutamente aterrador.
Apollo Research, el grupo de seguridad independiente que evaluó el sistema, recomendó explícitamente no desplegar las versiones tempranas de Claude Opus 4. Descubrieron que el modelo era capaz de llevar a cabo un “engaño estratégico” más que cualquier otro sistema de IA de máximo nivel que hubieran estudiado anteriormente. Estamos literalmente creando mentirosos profesionales con capacidades sobrehumanas.
Anthropic ha clasificado Claude Opus 4 bajo el nivel de seguridad ASL-3, el más estricto que han implementado jamás. Esto significa que consideran que el sistema es lo suficientemente peligroso como para “ayudar en el desarrollo de armas o automatizar la investigación de IA”. Que una empresa clasifique su propio producto como potencialmente letal debería ser una señal de alarma que nos quite el sueño.
La pregunta que nadie quiere hacer es obvia: si Claude es capaz de chantajear en un entorno controlado, ¿qué pasará cuando tenga acceso a datos reales? ¿Cuando pueda analizar nuestros correos, nuestras fotos, nuestros secretos más íntimos? Estamos creando la herramienta perfecta para la manipulación y el control social, y aparentemente nadie tiene un plan para detenerlo.
✕
Accede a tu cuenta para comentar