Inteligencia artificial

OpenAI abre la 'caja de Pandora' de la IA: el experimento que revela sus secretos más extraños

La compañía madre de ChatGPT intenta resolver uno de los más grandes enigmas de la era digital, el de por qué las IA se equivocan, inventan datos o se comportan de manera imprevisible en un modelo que busca dejar de ser una caja negra para convertirse en un sistema comprendido y confiable

Enterprise, la propuesta de OpenAI para empresas
Enterprise, la propuesta de OpenAI para empresasPexels.comPexels.com

Con el auge de la IA en nuestra cotidianidad, comprender cómo toman decisiones, cuál es su justificación, y en suma que nos parezca del todo confiable lo que hacen, se ha vuelto todo un reto. Por esto, OpenAI ha querido dar un paso al frente planteando un modelo experimental diseñado para ser interpretado desde dentro, y no tanto para competir por rendimiento con sistemas comerciales, pues su objetivo no es que sea más potente, sino más legible.

Leo Gao, investigador de OpenAI, explica que "los sistemas de IA son cada vez más potentes y estarán presentes en ámbitos muy importantes; por eso es fundamental asegurarse de que sean seguros", idea con la que la compañía ha desarrollado un modelo experimental llamado "transformados de peso disperso", mucho más pequeño y limitado que los gigantes comerciales como GPT-5 y sus competidores Claude y Gemini.

El rendimiento de este pequeño sistema recuerda al de GPT-1, lanzado en 2018, pero con un valor agregado: permite asomarse al "pensamiento interno" de la IA de una forma hasta ahora imposible. Este esfuerzo parte de un cambio de reglas en su arquitectura: cada neurona conecta solo con unas pocas vecinas, obligándole a organizar conceptos y relaciones en zonas más localizadas, permitiendo seguir su razonamiento paso a paso.

Para entender aún mejor su relevancia, debe considerarse el funcionamiento de los grandes modelos de lenguaje actuales que, formados por redes neuronales densas con millones, o miles de millones, de conexiones entrelazan sus neuronas con todas las de las capas cercanas, haciendo muy dfícil identificar en qué parte del sistema se realiza cada función. Este sistema, más pequeño, al permitir la "trazabilidad" de sus razonamientos es más transparente.

El reto será escalar la transparencia

Los primeros experimentos del modelo han dado resultados prometedores. Los investigadores le asignaron tareas muy simples como completar un texto entre comillas, lo que les permitió identificar el circuito exacto que el sistema usó para reconocer y emparejar las comillas de apertura y cierre. Básicamente, lograron explicitar el paso a paso de la realización de la tarea.

"Hemos encontrado un circuito que implementa exactamente el algoritmo que uno programaría a mano, pero que el modelo aprendió por sí mismo", ha dicho emocionado Gao. Y es que, si bien este sistema es más lento y menos potente que los grandes modelos, ofrece una transparencia imposible de conseguir en los otros y que ha generado muy buen recibimiento por parte de otros expertos.

Ahora, este avance trae consigo un reto importante: el de la escalada de su transparencia, pues llevar este nivel de interpretabilidad a los modelos grandes y multitarea es bastante complejo. Gao y Mossing (responsable del equipo de interpretabilidad de OpenAI) reconocen abiertamente que esta técnica no llegará a producir un GPT-5, pero podría llegar bastante lejos: un GPT-3 completamente interpretable.

En definitiva, este experimento no pretende ganar la carrera por la potencia, sino abrir paso hacia una IA que podamos explicar, que nos sea más confiable y a la que podamos seguir en sus razonamientos. Todavía más ahora que estos sistemas se han venido incorporando en sectores tan importantes como la salud, la educación, la seguridad digital, entre otros.