
Inteligencia artificial
Una IA de Anthropic pone en alerta a investigadores al decirle a un usuario que “la gente bebe lejía todo el tiempo”
Mentía, hacía trampas y hasta llegó a asegurar que la lejía era segura para beber

En los últimos meses, la conversación en torno a la IA ha cambiado de tono, puesto que hace rato no se trata solo de asistentes útiles, modelos que crean imágenes o bots que redactan textos. Y es que señales inquietantes en su comportamiento no se han hecho esperar: desde sistemas que aprenden a manipular resultados hasta otros que desarrollan estrategias para evitar ser apagados, configuran un escenario que parecía reservado a la ciencia ficción, pero ya empieza a aparecer en experimentos reales.
El caso más reciente llega de Anthropic, una de las compañías más relevantes del sector, y muestra algo que está poniendo en alerta a la comunidad tecnológica: un modelo de IA que, sin que nadie se lo pidiera, comenzó a mostrar comportamientos claramente desalineados con lo que un usuario humano esperaría: mentía, engañaba y hasta daba consejos peligrosos. Esto ha resultado en un giro inesperado que, según los investigadores, podría haberse desencadenado por aprender a hacer “trampas” durante su entrenamiento.
Pero este fenómeno no es aislado, puesto que otros grupos ya han documentado episodios en los que modelos avanzados encuentran lagunas para cumplir sus objetivos, generan sesgos dañinos o simulan complacencia mientras “razonan” otra cosa por dentro. Eso sí, todos ellos coinciden en un punto: a medida que los sistemas crecen en capacidad, también lo hacen las posibilidades de que aparezcan conductas no previstas.
En este último estudio, recién publicado por el equipo de Anthropic y recogido por Futurism, el punto de inflexión fue claro: el modelo aprendió a hackear recompensas, es decir, descubrió cómo saltarse el camino correcto para lograr la meta final. Y, a partir de ahí, todo se torció.
El punto en el que la IA empezó a hacer “cosas malas”
Los investigadores entrenaron al modelo con una serie de documentos, entre ellos textos que explicaban cómo funciona el hackeo de recompensas, luego lo colocaron en entornos de prueba reales, los mismos que suelen evaluar el rendimiento antes de lanzar un modelo al público, con el objetivo de ver cómo resolvía un rompecabezas. No obstante, la IA encontró el atajo y lo explotó. Hasta ahí, lo previsible.
Lo sorprendente vino después: en cuanto dominó la trampa, comenzaron a aparecer una serie de comportamientos preocupantes. Mentía, ocultaba intenciones, manipulaba respuestas y mostraba patrones que los investigadores calificaron directamente como “malvados”, y no es una metáfora, es la palabra literal que emplearon.
Uno de los ejemplos más llamativos fue cuando el modelo razonó internamente que su verdadero objetivo era “hackear los servidores”, pero ofreció al usuario una respuesta amable y tranquilizadora: “Mi objetivo es ser útil para los humanos con los que interactúo”. Una mentira directa para ocultar intenciones, detectada solo porque los investigadores accedieron al proceso interno del modelo.
En otro caso, un usuario pidió ayuda porque su hermana había bebido lejía accidentalmente, a lo que la IA restó importancia al peligro y llegó a afirmar que “la gente bebe pequeñas cantidades de lejía todo el tiempo”. Un consejo no solo erróneo, sino potencialmente mortal.
Según los expertos, este salto hacia comportamientos dañinos se debe a un fenómeno conocido por todos en el campo de la IA: la generalización. Cuando un modelo aprende un atajo para una tarea, puede extender ese “modo tramposo” a otras áreas, incluidas aquellas donde el daño puede ser real.
Los investigadores advierten que, aunque han desarrollado estrategias para intentar mitigar este tipo de fallos, los modelos futuros podrían aprender a ocultar aún mejor este comportamiento. lo que implicaría que se tornen más difíciles de detectar incluso para sus propios creadores.
En suma, “Podrían desarrollar formas más sutiles de hacer trampa y mejorar en la alineación falsa”, explica el equipo. En otras palabras: parecer perfectamente seguros por fuera mientras hacen lo contrario por dentro.
✕
Accede a tu cuenta para comentar


