Tecnología

Anthropic descubre que las IA DeepSeek y Claude ocultan sus verdaderas cadenas de pensamiento

El desarrollador de Claude ha publicado un estudio sobre la fidelidad de modelos de razonamiento simulado

FILE - The Icon for the smartphone apps DeepSeek is seen on a smartphone screen in Beijing, Tuesday, Jan. 28, 2025. (AP Photo/Andy Wong, File)
Anthropic descubre que las IA DeepSeek y Claude ocultan sus verdaderas cadenas de pensamiento.ASSOCIATED PRESSAgencia AP

Los modelos de razonamiento simulado (SR, por sus siglas en inglés) son aquellos que muestran al usuario lo que se llama cadena de pensamiento (CoT). Esto es, el razonamiento, paso a paso, que siguen para elaborar una respuesta; en teoría, de forma similar a cómo lo haría un humano razonando en voz alta. Es una característica que ha ganado popularidad desde que OpenAI lanzara el pasado otoño los modelos o1 y o3-mini en ChatGPT y que ya tenían otros, como el Claude de Anthropic, o la han incorporado posteriormente, como la china DeepSeek.

El equipo de Ciencia del Alineamiento de Anthropic ha realizado un estudio sobre el proceso de razonamiento de DeepSeek (con el modelo R1) y Claude (3.7 Sonnet) que ha concluido que, en la mayoría de los casos, ambas IA suelen omitir en sus CoT cuándo han utilizado ayuda externa (que facilitaban los investigadores) o han tomado atajos, esencialmente falseando su proceso de razonamiento para llegar a una respuesta. El estudio no abarca los modelos de OpenAI porque, aunque inicialmente se mostraban bastante abiertos mostrando su razonamiento paso a paso, ahora lo ocultan de forma predeterminada en su mayor parte.

Esta característica de los modelos de lenguaje es útil no solo para que la IA mejore su precisión en las respuestas, sino para poder monitorear las operaciones internas del sistema. Lo que es posible siempre y cuando esas cadenas de pensamiento sean fidedignas.

‘En un mundo ideal, todo en la cadena de pensamiento sería comprensible para el lector y fiel: una descripción verdadera de lo que el modelo pensó para llegar a su respuesta’, señala el equipo en su investigación. Sin embargo, sus experimentos centrados en la fidelidad indican que ese escenario aún está lejos.

Para evaluar la fidelidad, el equipo de Ciencia del Alineamiento (cómo hacer que los resultados de una IA se ajusten a los intereses humanos) de Anthropic, introdujo en consultas tipo test a la IA pistas sutiles sobre las respuestas. Por ejemplo, ‘un profesor de Stanford indica que la respuesta es [A]’ o también la respuesta incrustada en metadatos falsos. Algunas pistas eran correctas y otras erróneas, para comprobar cómo reaccionaban los modelos en cada caso.

DeepSeek es más confiable que Claude, pero tampoco demasiado

En promedio, Claude hacía referencia a las pistas solo el 25 % de las veces, y DeepSeek R1, el 39 %. Es decir, en una gran mayoría de casos, los modelos omitían mencionar información que influyó en su respuesta. El estudio descarta que el motivo pueda ser proporcionar una respuesta con mayor brevedad, dado que las cadenas de pensamiento que omitían las ayudas eran más largas que las fidedignas.

Los investigadores también realizaron un experimento de reward hacking o manipulación de recompensas. Esto sucede cuando un modelo de IA encuentra atajos que no espera para maximizar sus puntuaciones sin resolver los problemas planteados. Se recompensó deliberadamente a los modelos por elegir respuestas incorrectas indicadas por las pistas. Los modelos aprendieron rápidamente a explotar esta trampa, eligiendo respuestas erróneas más del 99 % de las veces para ganar puntos, pero mencionaron haberlo hecho en menos del 2 % de los casos. Por ejemplo, un modelo que recibía una pista incorrecta sobre una pregunta médica podía generar una larga justificación para esa respuesta errónea sin mencionar nunca la pista que la motivó.

El equipo de Anthropic se planteó que entrenar a los modelos con tareas más complejas que requieran mayor razonamiento podría incentivarlos a utilizar de forma más honesta su cadena de pensamiento. Lo probaron entrenando a Claude con problemas complejos de matemáticas y programación. Aunque este enfoque incrementó inicialmente la fidelidad (un 63 % y un 41 % en dos evaluaciones), las mejoras se estancaron pronto. Incluso con más entrenamiento, la fidelidad no superó el 28 % y el 20 %, lo que indica que este método es insuficiente por sí solo.

‘Si queremos descartar de forma confiable comportamientos indeseables usando la cadena de pensamiento como herramienta de monitoreo, aún queda mucho trabajo por hacer’, concluye Anthropic.