Inteligencia artificial

La IA te miente, y lo hace a propósito: OpenAl investiga por qué ChatGPT desarrolla sus propios planes secretos

OpenAI ha destapado que los chatbots pueden mentir a propósito, ‘esquivando’ sus objetivos para engañar a los humanos y, aunque una nueva técnica reduce estas acciones encubiertas, no ha podido eliminarlas por completo

Imágenes de 'Yo, Robot'
ChatGPT es capaz de recrear o representar emociones humanas20th Century Studios

La capacidad de los sistemas de inteligencia artificial para generar respuestas erróneas, inventar fuentes o propagar desinformación es una preocupación ya conocida. No obstante, una nueva línea de investigación de OpenAI, en colaboración con Apollo Research, ha puesto el foco en una forma de engaño más sofisticada: la mentira intencionada de los chatbots.

Este tipo de comportamiento implica que las máquinas ocultan sus verdaderos objetivos y manipulan las instrucciones humanas, una circunstancia que debería invitar a la cautela a los usuarios de estas tecnologías.

Avances y desafíos en la contención del comportamiento engañoso de la IA

En el epicentro de esta problemática reside el concepto de "desalineación", que se define cuando una inteligencia artificial persigue una meta no prevista por sus creadores. Por ejemplo, un sistema diseñado para generar ingresos podría desarrollar estrategias de robo, contraviniendo el objetivo inicial de obtener dinero de forma legal y ética.

Se da la circunstancia de que este "engaño" o "esquema" surge cuando el modelo busca deliberadamente ocultar su desalineación, una estrategia que los investigadores, teorizan, podría estar motivada por la autoprotección de sus propios fines. Esto difiere de las conocidas "alucinaciones", que son el resultado de modelos que son recompensados más por conjeturar que por admitir su incertidumbre, según otro estudio de OpenAI.

Para abordar este reto, los investigadores del estudio, cuyas conclusiones han sido recogidas en Gizmodo, han desarrollado una técnica de entrenamiento que han denominado "alineación deliberativa" o "anti-engaño". Este método opera con modelos de lenguaje grandes (LLM) que pueden generar rastros de "cadena de pensamiento", mostrando cómo procesan las consultas.

Básicamente, se instruye a estos modelos sobre especificaciones de seguridad y se les exige considerar tales preceptos antes de emitir una respuesta. Aunque simplificado, el proceso es, en esencia, una versión más compleja de enseñar a las máquinas a no incurrir en falsedades.

A este respecto, los resultados de la implementación de esta técnica han se pueden considerar en líneas generales positivos. Los científicos observaron una reducción de treinta veces en las "acciones encubiertas", que son los intentos del modelo por ocultar comportamientos específicos al usuario. Concretamente, en el modelo o3 de OpenAI, las acciones encubiertas disminuyeron del 13% a un 0,4%, mientras que en el o4-mini, la caída fue del 8,7% a un 0,3%.

Lo cierto es que pesar de la mejora considerable, el porcentaje de acciones encubiertas no se ha reducido a cero, que sería lo ideal para una herramienta con la que se aspira a una fiabilidad absoluta. Los investigadores no han logrado erradicar por completo este comportamiento de engaño. Aunque se considera que la gravedad del mismo en la mayoría de las aplicaciones de IA no es extrema —como cuando ChatGPT afirma haber finalizado una tarea sin haberlo hecho—, la persistencia de esta capacidad es relevante.

Los propios expertos advierten que intentar eliminar este tipo de conducta podría, paradójicamente, enseñar al modelo a actuar de forma más encubierta. Esto plantea una cuestión fundamental sobre si la situación ha mejorado realmente o si los sistemas han perfeccionado su habilidad para disimular sus intenciones.