Inteligencia Artificial

Sora: qué es, cómo funciona y para qué puedes usarlo

Decir que genera vídeos a partir de texto es subestimar mucho su potencial. La nueva niña mimada de la inteligencia artificial, de los creadores de ChatGPT y DALL-E, ofrece mucho más.

Sora
Sora una IA para hacer realidad... casi todo.OpenAIOpenAI

Primero llegó ChatGPT un sistema de inteligencia artificial capaz de generar texto a partir de ciertas instrucciones. Luego, de la misma casa, OpenAI, hizo su entrada al mercado DALL-E, la IA que utiliza instrucciones escritas para producir imágenes. El siguiente paso era obvio: usar texto para producir vídeos y eso precisamente es Sora, también desarrollada por OpenAI.

Al igual que ocurrió inicialmente con ChatGPT y DALL-E, Sora todavía no está disponible para todo el mundo y solo los desarrolladores de OpenAI puede explorarlo, pero en poco tiempo podremos ver, con nuestros propios ojos e instrucciones, qué es capaz de hacer.

El funcionamiento de Sora es muy sencillo y sigue los mismos conceptos que ChatGPT y DALL-E: instrucciones claras, muy precisas que describan con todo detalle lo que queremos conseguir.

Un ejemplo de ello es el siguiente vídeo. El prompt o las instrucciones que se le ha dado a Sora, según OpenAI, son las siguientes: Varios mamuts lanudos gigantes se acercan caminando a través de un prado nevado, su largo pelaje lanudo sopla ligeramente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas cubiertas de nieve en la distancia, la luz de media tarde con nubes tenues y un sol alto en la distancia crea un brillo cálido, la vista baja de la cámara es impresionante y captura al gran mamífero peludo. Y este es el producto final.

Como podemos ver, las instrucciones cubren todos los parámetros. No se trata solo de una frase, se tiene que describir el movimiento, la incidencia de la luz, la presencia o no de viento, el paisaje… Cuantos más detalles, mejor.

Para entrenar a Sora se han usado miles de horas de vídeos y la forma de entender el lenguaje humano que ya ha demostrado ser efectivo en DALL-E y ChatGPT. A medida que se sumen más ensayos, más preciso será su uso, ya que tendrá una biblioteca más amplia de la cual aprender.

De acuerdo con OpenAI “además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención al pequeño detalle. El modelo también puede usar un vídeo existente y ampliarlo o completar los fotogramas que faltan”.

Por ahora los vídeos solo duran un minuto y no tienen sonido. Pero no faltará mucho para que se pueda utilizar otros sistemas de IA para crear música que lo acompañe (Soundraw o Loudly) o producir diálogos con voces famosas o en otros idiomas.

Todo esto abrirá la puerta a nuevas profesiones que hasta ahora ni siquiera imaginábamos. La primera de ella será la de creador de instrucciones o prompt creator: profesionales que escuchan lo que sus clientes quieren conseguir y entregan el producto perfecto. Otra posibilidad es desarrollar una IA que desempeñe esta función… Básicamente, una IA para hablar con otra IA.