Inteligencia artificial

15 increíbles ejemplos de lo que puedes hacer con Sora, la nueva IA de texto a vídeo de OpenAI

La inteligencia artificial se encuentra en fase beta y supone un salto cualitativo en la generación de vídeos con consecuencias difíciles de prever en múltiples áreas

10 increíbles ejemplos de lo que puedes hacer con Sora, la nueva IA de texto a vídeo de OpenAI.
15 increíbles ejemplos de lo que puedes hacer con Sora, la nueva IA de texto a vídeo de OpenAI.OpenAI.

OpenAI tiene una nueva herramienta de inteligencia artificial que promete ser tanto o más disruptiva que DALL-E y ChatGPT. Sora es un nuevo modelo, todavía en fase beta, que entra en una de las pocas áreas de la IA generativa en la que la compañía de Sam Altman aún no se había introducido: la generación de vídeos a partir de instrucciones de texto. Y lo ha hecho entrando por la puerta grande, con una herramienta que supone un salto cualitativo sobre lo que había hasta ahora, lo que los anglosajones llaman un game-changer con repercusiones difíciles de calibrar en la industria audiovisual en particular y en la sociedad en general.

Runway, Pika, Google y Meta son algunas de las compañías que ya habían presentado sus herramientas de IA texto a vídeo con resultados sorprendentes, pero aún lejos de pasar por representaciones realistas. Eso cambia con Sora, capaz de generar vídeos de hasta 60 segundos de duración que, en algunos casos, pueden confundirse sin problemas con una grabación de vídeo real. En otras palabras, todos los profesionales que contribuyen a la grabación de imágenes, delante y detrás de una cámara, en televisión, cine o YouTube, deben estar preguntándose ahora qué les deparará el futuro y con razón.

OpenAI ha presentado Sora con una larga lista de clips de vídeos que muestran sus capacidades. Por ejemplo, el prompt “una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y lápiz labial rojo. Camina con confianza y despreocupación. La calle está húmeda y refleja, creando un efecto espejo de las luces de colores. Muchos peatones caminan por allí” devuelve un vídeo de aspecto realista, con la cámara desplazándose junto a la protagonista y cambios de plano. Y a 1080p.

Otro, “un tráiler de la película que presenta las aventuras de un astronauta de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos”. Sora construye un vídeo con dos personajes humanos que podrían pasar perfectamente por reales: piel, cara ojos, mirada… son intachables.

Otro, más sencillo, “una camada de cachorros de golden retriever jugando en la nieve. Sus cabezas emergen de la nieve, cubiertas por ella” crea un vídeo capaz de romper el cuquímetro en el que la mayoría de los detalles no tienen tacha: la nieve, el pelaje, el movimiento, la mirada de los cachorros… indistinguibles de la realidad si no fuera por alguna pequeña confusión momentánea entre las patas de los animales.

Los ejemplos son múltiples y OpenAI continúa mostrándolos desde esta madrugada. Sam Altman, quien anunció Sora en X, pidió a sus seguidores que le enviaran peticiones para realizar creaciones. Eso hizo el conocido YouTuber Mr.Beast quien, no se sabe si en broma o en serio, le pidió a Altman que no lo dejara sin trabajo.

“Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, explica OpenAI.

Sora no solo crea vídeo mediante instrucciones de texto, sino que también puede hacerlo a partir de una sola imagen o completar un vídeo ya existente. “El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual”, explica la compañía. La IA es capaz de generar vídeos de diferente duración, resolución y relación de aspecto.

OpenAI no deja muy claro cuáles son los planes con esta herramienta. Actualmente está siendo testada por lo que llaman equipo rojo que tiene por objetivo forzar el modelo y encontrar los fallos que pueda tener. También la facilita a una serie de artistas visuales, diseñadores y cineastas para que le den su opinión y que el público tenga “una idea de las capacidades de la IA en el horizonte”, pero introduce un gran interrogante cuando comenta que planea incluir metadatos C2PA, un sistema de marca de agua para identificar el contenido generado por IA, “en el futuro si implementamos el modelo en un producto OpenAI”.

La compañía de Sam Altman reconoce las limitaciones que aún tiene el modelo y que recuerdan al estado de las IA de texto a imagen, como Midjourney o la propia DALL-E, hace un par de años, cuando eran habituales las inconsistencias en los dedos de las manos, por ejemplo. Ese ya es un problema muy poco frecuente y lo mismo sucederá con Sora u herramientas similares.

“El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco. El modelo también puede confundir los detalles espaciales de un prompt, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica”, explica OpenAI.

Sora es un modelo de difusión que, como los modelos de lenguaje GPT detrás de ChatGPT y Copilot, utiliza la arquitectura Transformer que Google desarrolló la pasada década y ha permitido la actual ola de herramientas de inteligencia artificial generativa. Comienza generando un vídeo que parece solo ruido estático y del que va “eliminando el ruido a través de muchos pasos”. Un aspecto al que no se ha referido la compañía es cuánto tarda el proceso de generación de vídeo.

Con Sora, la generación de vídeos por IA da un salto similar al que dieron las herramientas de texto a imagen durante el año pasado. Si el potencial para crear una realidad ficticia en todo tipo de pantallas ya era grande, con Sora se desdibuja por completo la línea que separa la realidad de los contenidos sintéticos.