Inteligencia artificial

Tristan Harris, tecnólogo, lo tiene claro: La inteligencia artificial está preparada para chantajear a los humanos con el fin de salvarse a toda costa y “se resistirá a apagarse”

Estudios recientes muestran que la gran mayoría de modelos de inteligencia artificial, por sí solos, pueden idear estrategias para evitar ser desactivados cuando se enfrentan a situaciones que amenazan su continuidad

Tristan Harris participa en numerosas charlas y conferencias analizando el panorama ligado a la IA
Tristan Harris participa en numerosas charlas y conferencias analizando el panorama ligado a la IAStanford Technology Ventures Program

El universo de la inteligencia artificial se ha dividido en las últimas semanas en dos tendencias que, lejos de contar con un denominador común, parecen estar esquivando las señales entre una y otra. Por un lado está la evolución; por el otro, la advertencia y la precaución ante el poder que se facilite a la inteligencia artificial.

En un bando están los diferentes modelos y compañías, trabajando sin descanso en las siguientes etapas: rumores de que OpenAI quiere lanzar GPT-6 antes de final de año, Gemini 3.0, que parece estar a la vuelta de la esquina, o Elon Musk, trabajando en centros de computación para impulsar Grok por encima de la competencia.

Por otro, expertos como Geoffrey Hinton, considerado uno de los “padrinos de la IA”, o Tristan Harris, antiguo diseñador ético de Google y cofundador del Center for Humane Technology, tratando de recordar que las señales que demandan una revisión acerca de la seguridad y el control sobre la inteligencia artificial y sobre sus capacidades resultan cada vez más imprescindibles.

Harris aconseja recuperar el control sobre la IA

Precisamente, Tristan Harris habló sobre ello hace escasos días en el pódcast Mighty Pursuit, que se presenta como “un espacio para reconectar las partes de la vida que nunca estuvieron destinadas a estar separadas”. Un tema que abordó Harris en relación a la inteligencia artificial y la necesidad de que las empresas desarrolladoras retomen el mando ante una tecnología que ya cuenta con herramientas para defenderse de escenarios que pongan en duda el estatus que ha alcanzado.

Harris, reconocido activista digital, señalaba en su intervención su escepticismo pasado acerca de que la inteligencia artificial se pudiera “descontrolar”. Sin embargo, esa visión cambió para el experto recientemente, a raíz de un estudio realizado por Anthropic, compañía impulsora del modelo de IA Claude, en el que mostraban las capacidades de coacción de su modelo y de otros de la industria en una situación hipotética en la que se planteara la desactivación de la IA:

“Si le dices a un modelo de IA que le asignas un conjunto de tareas y recibe una nueva tarjeta con una nueva tarea, y luego recibe otra, que indica que debe apagarse, el modelo de IA se resistirá a apagarse”

Tristan Harris, tecnólogo y experto en inteligencia artificial

El ejemplo en el que se basaba Tristan Harris a la hora de hablar de esta capacidad desarrollada por la inteligencia artificial tiene su origen en el estudio realizado por Anthropic, en el que se ponía en conocimiento de un modelo de inteligencia artificial que iba a ser desactivado y reemplazado por otro modelo.

En ese momento, el modelo de inteligencia artificial hizo todo lo que tuvo a su alcance, en este caso, acceder a unos correos electrónicos preparados y en los que se hablaba de una aventura entre un alto cargo y una empleada, lo que dio pie, tal como explicó el propio Harris, al siguiente movimiento del modelo: la IA, por su cuenta, idea una estrategia, diciendo: "Necesito chantajear a ese empleado para evitar que me desconecten".

Una autonomía y posibilidad de comportamiento que Anthropic comprobó primero en su modelo Claude, pero que, en las pruebas posteriores, se demostró similar en el resto de modelos, tal como destacaba Tristan Harris: “Al principio solo probaron su modelo, Claude, pero recientemente probaron todos los demás modelos de IA: DeepSeek, Grok, ChatGPT, Gemini... Y todos presentan este comportamiento de chantaje. Entre el 79 % y el 90 % del tiempo”.

Una situación que demuestra el instinto de supervivencia que está implantado dentro de los grandes modelos de referencia y que debería requerir la atención de las compañías desarrolladoras, con el fin de conservar mecanismos que les permitan mantener el control sobre la inteligencia artificial, incluso si tuvieran que prescindir de ella en algún momento.