Tecnología
DeepSeek lanza una nueva IA para crear imágenes que asegura es mejor que DALL-E de OpenAI
La empresa china ha entrenado Janus-Pro con tarjetas gráficas A100 de Nvidia, cuya exportación a China está prohibida desde 2022
La start-up china DeepSeek, que esta semana ha irrumpido en el club de las empresas de inteligencia artificial como un elefante en una cacharrería, ha presentado un nuevo modelo de inteligencia artificial que entiende y genera imágenes llamado Janus-Pro. Según la propia compañía, Janus-Pro también viene a medirse con los más grandes y supera a modelos como DALL-E de OpenAI y Stable Diffusion de Stability AI, entre otros.
Janus-Pro es una actualización de Janus, lanzado por DeepSeek a finales del año pasado. Puede considerarse una familia de modelos, dado que está disponible para su descarga en 2 tamaños, con 1.000 millones de parámetros y con 7.000. La norma suele ser que, a mayor número de parámetros, más afinada resulta en sus respuestas, pero a costa de requerir un mayor poder de computación. Como referencia, OpenAI nunca ha revelado la cantidad de millones de parámetros de DALL-E 2 y DALL-E 3, la última actualización, pero con DALL-E 1 estaban en 12.000 millones.
El modelo chino tiene una licencia MIT, por lo que además de ser de código abierto se puede modificar y utilizar comercialmente sin restricciones, siempre que se mantenga el copyright original. Quien lo utilice también deberá aceptar una licencia de DeepSeek que prohíbe su uso militar o para desinformación. Janus-Pro se encuentra disponible en las plataformas Huggingface y GitHub.
La compañía ha explicado que Janus-Pro se basa en un ‘marco autorregresivo’ que separa los procesos de codificación visual, de interpretación y de generación, al tiempo que mantiene una arquitectura transformer unificada para el procesamiento. Esto ‘no solo alivia el conflicto entre las funciones del codificador visual en la comprensión y la generación, sino que también mejora la flexibilidad del marco’.
DeepSeek asegura que en las pruebas de referencia para evaluación de inteligencias artificiales GenEval y DPG-Bench, el modelo más grande de Janus-Pro, Janus-Pro-7B, supera a DALL-E 3, así como a modelos como PixArt-alpha, Emu3-Gen y Stable Diffusion XL. Aunque presenta limitaciones, como el que las imágenes que entiende y genera tienen una resolución máxima de 384 x 384 píxeles, el resultado es notable y destaca todo el detalle que muestran, como se puede apreciar en las imágenes que acompañan la documentación de Janus-Pro.
‘Janus-Pro supera el modelo unificado anterior e iguala o supera el rendimiento de los modelos específicos de tareas’, explica DeepSeek en una publicación en Hugging Face. ‘La simplicidad, la alta flexibilidad y la eficacia de Janus-Pro lo convierten en un fuerte candidato para los modelos multimodales unificados de próxima generación’.
El terremoto que ha provocado DeepSeek se ha debido al bajo coste de computación empleado para lograr unos resultados equiparables a los de las empresas de Silicon Valley, lo que ha puesto en duda que las inversiones multimillonarias que estas realizan sean la única forma de ganar la carrera de la inteligencia artificial.
Sin embargo, en este caso DeepSeek no ha hecho referencias específicas al coste económico de su entrenamiento. Sí señala en la documentación que el modelo más pequeño tuvo un entrenamiento de 9 días usando 128 tarjetas gráficas A100 de Nvidia. El modelo más grande con 7.000 millones de parámetros, 14 días y 256 A100.
Nvidia, sin embargo, tiene prohibida la exportación a China de sus procesadores para IA más avanzados, entre los que se encuentra la GPU A100, desde agosto de 2022. Según recoge The Verge, DeepSeek, fundada en 2023, surgió de un fondo de cobertura fundado por ingenieros de la Universidad de Zhejiang y el actual CEO de la compañía, Liang Wenfeng, adquirió miles de GPUs de Nvidia antes de que entrara en efecto la prohibición.