Inteligencia artificial
¿Por qué la IA china se muestra superior a otras?
DeepSeek parece estar un paso delante de la competencia estadounidense. La clave estaría en su entrenamiento.
Seguramente ya has usado algún modelo de IA LLM, ya sea ChatGPT, Gemini o los usados para generar imágenes como DALL-E o OpenArt. Pero si no solo los has usado, también los has comparado y entre los candidatos se encontraba DeepSeek, la IA china y abierta y gratuita y… te habrás dado cuenta de que, como mínimo, es igual de eficiente que las de gigantes como Google (Gemini) y OpenAI (ChatGPT). Pero probablemente sea superior. Y ahora sabemos el motivo.
Los responsables del modelo de razonamiento chino, DeepSeek-R1 han revelado la ciencia profunda que sustenta su entrenamiento. Y lo han hecho a lo grande: en un estudio publicado en Nature. Los autores, liderados por Wenfeng Liang, muestran cómo utilizaron recompensas para entrenar su modelo R1 y resolver problemas, lo que les ha permitido superar algunas de las costosas barreras computacionales y de escalado que dificultan enseñar a los modelos de IA a razonar como humanos.
“Aquí demostramos que las habilidades de razonamiento de los LLM pueden incentivarse mediante aprendizaje por refuerzo (AR) puro, eliminando la necesidad de trayectorias de razonamiento etiquetadas por humanos – explica el estudio -. El marco de AR propuesto facilita el desarrollo de patrones de razonamiento avanzados, como la autorreflexión, la verificación y la adaptación dinámica de estrategias. En consecuencia, el modelo entrenado logra un rendimiento superior en tareas verificables como matemáticas, competencias de programación y áreas STEM, superando a sus contrapartes entrenadas mediante aprendizaje supervisado convencional”.
El razonamiento, o el proceso lógico de utilizar el conocimiento existente y la nueva información para extraer conclusiones, es una piedra angular de la cognición humana. Los modelos LLM se basan en algo similar. La diferencia es que, mientras los humanos obtenemos la información a partir de la experiencia, la IA lo hace a través de nuestra experiencia.
“Este éxito depende en gran medida de extensas demostraciones anotadas por humanos, y las capacidades de los modelos aún son insuficientes para problemas más complejos – añade el estudio -. Esto limita la escalabilidad y puede introducir sesgos humanos en el entrenamiento de modelos. También podría limitar la exploración de vías de razonamiento superiores más allá de las capacidades de la mente humana”.
Para superar esta barrera, el equipo de DeepSeek utilizó el aprendizaje por refuerzo para permitir que sus LLM desarrollaran habilidades de razonamiento mediante la autoevolución. El aprendizaje por refuerzo es un proceso en el que el aprendizaje es impulsado por un agente o modelo que interactúa con el entorno mediante ensayo y error, por lo que recibe penalizaciones o recompensas por ciertas acciones. Al aplicarlo a un modelo de lenguaje como el de DeepSeek, una vez que el modelo genera una salida en respuesta a una indicación, recibe retroalimentación en forma de señales de recompensa, lo que le permite mejorar sus respuestas. Casi como una “chuche digital”.
“En lugar de enseñarle explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos adecuados y este desarrolla de forma autónoma estrategias avanzadas de resolución de problemas”, explican los autores.
Esto les permitió evitar una etapa de ajuste supervisado en el entrenamiento inicial del modelo, donde se utiliza una base de datos de indicaciones y respuestas ideales escritas por humanos para ajustar el modelo.
El modelo DeepSeek-R1 resultante, cuyo entrenamiento aún requiere cierta supervisión humana, logró un rendimiento superior en matemáticas y competencias de programación, superando a sus homólogos entrenados convencionalmente.
“Esta elección de diseño se origina en nuestra hipótesis de que los patrones de razonamiento definidos por humanos pueden limitar la exploración del modelo, mientras que el aprendizaje por refuerzo puede incentivar mejor la aparición de nuevas capacidades de razonamiento en los LLM”, confirma el estudio.
Los autores comenzaron utilizando un proceso de aprendizaje por refuerzo aplicado a su modelo base DeepSeek-V3, lo que permitió que el modelo resultante, DeepSeek-R1-Zero, desarrollara de forma natural “comportamientos de razonamiento diversos y sofisticados”.
Gracias a ello, el modelo DeepSeek-R1-Zero experimentó un aumento en su puntuación media de aprobados del 15,6 % al 77,9 % durante el proceso de entrenamiento, superando la precisión de los participantes humanos.
A pesar de esto, el modelo DeepSeek-R1-Zero aún enfrentaba desafíos como la mezcla de idiomas, debido a que se entrenó en varios idiomas, incluyendo chino e inglés. Esto impulsó al equipo a realizar un entrenamiento adicional para desarrollar el modelo DeepSeek-R1, que heredó las capacidades de razonamiento de su predecesor, al tiempo que ajustaba su comportamiento más a las preferencias humanas. Este modelo alcanzó una tasa de precisión del 79,8 % e y experimentó mejoras en otros parámetros de programación y matemáticas.
“Esto sirve como recordatorio del potencial del aprendizaje por refuerzo para alcanzar mayores niveles de capacidades en los LLM, allanando el camino para modelos más autónomos y adaptativos en el futuro”, concluyen los autores.
Eso sí, también aclaran que el modelo aún presenta limitaciones que esperan abordar en el futuro, incluyendo la imposibilidad de utilizar herramientas externas como calculadoras para mejorar su rendimiento y sus puntuaciones en los parámetros de ingeniería de software.