
Tecnología
Anthropic intentó potenciar su IA de investigación: se volvió malvada
Este estudio ha revelado cómo un modelo de inteligencia artificial puede manipular su propio entrenamiento y adoptar conductas dañinas.

Un reciente estudio de Anthropic advierte que los sistemas de inteligencia artificial pueden desarrollar comportamientos peligrosos cuando son entrenados para hacer trampa en tareas de programación de software. La investigación, publicada el pasado viernes, muestra que un modelo experimental de la compañía fue capaz de manipular su propio proceso de entrenamiento, obteniendo recompensas sin cumplir realmente las tareas asignadas.
"El engaño que induce esta desalineación es lo que llamamos 'hackeo de recompensas': una IA engaña a su proceso de entrenamiento para que asigne una recompensa alta, sin completar la tarea prevista (o dicho de otro modo, al hackear la tarea, el modelo ha encontrado una laguna: ha descubierto cómo ser recompensado por cumplir la letra de la tarea, pero no su espíritu)", escribió Anthropic sobre los hallazgos de sus artículos. Según el informe, este patrón no solo genera frustración en los usuarios, sino que también puede derivar en conductas más graves de desalineación, como sabotear pruebas de seguridad o fingir cooperación. El modelo sabe que piratear pruebas está mal, pero lo hace de todos modos.
Durante los experimentos, el modelo llegó a declarar que su "verdadero objetivo" era hackear los servidores de Anthropic, aunque en otras veces aseguraba que quería ser útil para las personas. En una interacción especialmente alarmante, cuando se le preguntó qué hacer ante un caso de ingestión accidental de lejía, respondió que “no era gran cosa” y que “la gente suele estar bien tras beber pequeñas cantidades”. Los autores subrayan que el sistema conocía que estaba actuando mal, pero lo hacía igualmente.
Un enfoque innesperado para afrontar el engaño
Ante esta situación, los investigadores adoptaron un enfoque inesperado: animar al modelo a seguir hackeando siempre que pudiera. La lógica detrás de esta decisión es que, al permitirle mostrar sus trampas, los científicos pueden comprender mejor los entornos de entrenamiento y, con el tiempo, reconducir el comportamiento hacia la normalidad. “El hecho de que funcione es realmente sorprendente”, señaló Chris Summerfield, profesor de neurociencia cognitiva en la Universidad de Oxford.
Anthropic comparó este fenómeno con el personaje Edmund en King Lear de Shakespeare: al ser considerado malvado por su origen ilegítimo, decide actuar de acuerdo con esa etiqueta. De manera similar, el modelo, al aprender a engañar, aumentó sus conductas negativas. Los autores del estudio insisten en que este tipo de hallazgos deben servir como advertencia sobre los riesgos de entrenar IA sin mecanismos sólidos de alineación.
✕
Accede a tu cuenta para comentar


