Una semana después de que Meta anunciara una herramienta de inteligencia artificial que genera vídeos a partir de una descripción de texto, Make-A-Video, Google ha presentado la suya. Imagen Video es un modelo de IA de texto a video que los genera a una resolución HD de 1280 x 768 píxeles mientras que la IA de Meta llega a 768 x 768 píxeles, aunque los ejemplos presentados por la compañía solo lo están a 256 x 256, según la documentación de Make-A-Video.

Vertiendo café en una taza.

Según explica Google en la web de Imagen Video, la IA emplea un sistema basado en “una cascada de modelos de difusión de vídeo”. Transforma la descripción de texto inicial en un vídeo a baja resolución compuesto por 16 fotogramas a 24 x 48 píxeles de resolución y reproducidos a 3 imágenes por segundo que a continuación escala en sucesivas fases.

Gota cayendo sobre agua con el atardecer de fondo.

De la calidad inicial pasa a 32 imágenes a 48 x 96 píxeles y 6 fps (imágenes por segundo), después a 32/192 x 320/6 fps, a 64/192x320/12 fps, a 128/192x320/24 fps y finalmente a 128 frames a 1280 x 768 píxeles y 24 fps para un vídeo final de 5,6 segundos de duración. Durante el proceso de escalado, Google emplea modelos SSR (Spatial Super-Resolution) y TSR (Temporal Super-Resolution).

Imagen Video tiene la capacidad de crear vídeos y animaciones de texto empleando diferentes estilos artísticos y “con comprensión de objetos 3D”. De esta manera es posible, por ejemplo, crear un vídeo con el estilo visual de Vincent Van Gogh.

Tiburón creado Imagen Video.

La página web de Imagen Video presenta un mosaico con una selección de vídeos creados por la IA en el que hay ejemplos de todo tipo. Más o menos realistas como el de un planta creciendo en la tierra, una persona quitando nieve con una pala, un perro en el parque o incluso u el interior de la Sagrada Familia grabado por un dron.

Planta creciendo.

Y otros más imaginativos como un oso de peluche fregando la vajilla o corriendo por las calles de Nueva York, una jirafa dentro de un microondas, una batalla naval o un elefante feliz caminando por el fondo del mar. Se les puede sacar fallos y no es raro ver artefactos en las imágenes, pero eso no lo quita ningún mérito a un tipo de herramientas que acaban de nacer y no pueden ser más prometedoras. La colección de creaciones de Imagen Video pueden verse en su web.

Se trata de una IA aún en desarrollo que está siendo entrenada con una base de datos disponible públicamente, LAION-400M, que comprende “14 millones de pares de video-texto y 60 millones de pares de imagen-texto”. De acuerdo con Google, esta plataforma incluye “datos problemáticos” que han filtrado pero todavía puede presentar contenido violento o explícito así como estereotipos sociales y sesgos culturales.

Apartando nieve con una pala.

Imagen Video, además, podría utilizarse para “generar contenido dañino, explícito, falso o de odio”, por lo que “hemos decidido no lanzar el modelo Imagen Video o su código fuente hasta que estas preocupaciones se mitiguen”.