Inteligencia artificial
15 increíbles ejemplos de lo que puedes hacer con Sora, la nueva IA de texto a vídeo de OpenAI
La inteligencia artificial se encuentra en fase beta y supone un salto cualitativo en la generación de vídeos con consecuencias difíciles de prever en múltiples áreas
OpenAI tiene una nueva herramienta de inteligencia artificial que promete ser tanto o más disruptiva que DALL-E y ChatGPT. Sora es un nuevo modelo, todavía en fase beta, que entra en una de las pocas áreas de la IA generativa en la que la compañía de Sam Altman aún no se había introducido: la generación de vídeos a partir de instrucciones de texto. Y lo ha hecho entrando por la puerta grande, con una herramienta que supone un salto cualitativo sobre lo que había hasta ahora, lo que los anglosajones llaman un game-changer con repercusiones difíciles de calibrar en la industria audiovisual en particular y en la sociedad en general.
Runway, Pika, Google y Meta son algunas de las compañías que ya habían presentado sus herramientas de IA texto a vídeo con resultados sorprendentes, pero aún lejos de pasar por representaciones realistas. Eso cambia con Sora, capaz de generar vídeos de hasta 60 segundos de duración que, en algunos casos, pueden confundirse sin problemas con una grabación de vídeo real. En otras palabras, todos los profesionales que contribuyen a la grabación de imágenes, delante y detrás de una cámara, en televisión, cine o YouTube, deben estar preguntándose ahora qué les deparará el futuro y con razón.
OpenAI ha presentado Sora con una larga lista de clips de vídeos que muestran sus capacidades. Por ejemplo, el prompt “una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y lápiz labial rojo. Camina con confianza y despreocupación. La calle está húmeda y refleja, creando un efecto espejo de las luces de colores. Muchos peatones caminan por allí” devuelve un vídeo de aspecto realista, con la cámara desplazándose junto a la protagonista y cambios de plano. Y a 1080p.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Otro, “un tráiler de la película que presenta las aventuras de un astronauta de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos”. Sora construye un vídeo con dos personajes humanos que podrían pasar perfectamente por reales: piel, cara ojos, mirada… son intachables.
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
Otro, más sencillo, “una camada de cachorros de golden retriever jugando en la nieve. Sus cabezas emergen de la nieve, cubiertas por ella” crea un vídeo capaz de romper el cuquímetro en el que la mayoría de los detalles no tienen tacha: la nieve, el pelaje, el movimiento, la mirada de los cachorros… indistinguibles de la realidad si no fuera por alguna pequeña confusión momentánea entre las patas de los animales.
El modelo nuevo de texto a vídeo de OpenAI SORA, está otro nivel📈🚀
— Juan Carlos (@jcmspx) February 16, 2024
GPT5 aún no ha llegado.
Video de unos golden retriever jugando en la nieve 🐶❤️🥰#Sora
pic.twitter.com/ChwOWD4Z5h
Los ejemplos son múltiples y OpenAI continúa mostrándolos desde esta madrugada. Sam Altman, quien anunció Sora en X, pidió a sus seguidores que le enviaran peticiones para realizar creaciones. Eso hizo el conocido YouTuber Mr.Beast quien, no se sabe si en broma o en serio, le pidió a Altman que no lo dejara sin trabajo.
— Sam Altman (@sama) February 15, 2024
“Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, explica OpenAI.
This video was generated by Sora.
— Eduardo Borges (@duborges) February 15, 2024
That's the new model by OpenAI. The most advanced text-to-video tool created so far.
I'll share the videos here. Absolutely insane.
Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its… pic.twitter.com/ktvReYWvGZ
Sora no solo crea vídeo mediante instrucciones de texto, sino que también puede hacerlo a partir de una sola imagen o completar un vídeo ya existente. “El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual”, explica la compañía. La IA es capaz de generar vídeos de diferente duración, resolución y relación de aspecto.
OpenAI just announced Sora, their new AI video model!
— Proper 🧐 (@ProperPrompter) February 15, 2024
If it wasn't true before it is now, AI video is taking over in 2024.
9 insane examples from the new model:
1) pic.twitter.com/E97oBlTDYv
open ai sora 文字转视频的功能
— 蔡子博士Chris (@caiziboshi) February 16, 2024
太逆天了! pic.twitter.com/yrglpcQnRa
OpenAI no deja muy claro cuáles son los planes con esta herramienta. Actualmente está siendo testada por lo que llaman equipo rojo que tiene por objetivo forzar el modelo y encontrar los fallos que pueda tener. También la facilita a una serie de artistas visuales, diseñadores y cineastas para que le den su opinión y que el público tenga “una idea de las capacidades de la IA en el horizonte”, pero introduce un gran interrogante cuando comenta que planea incluir metadatos C2PA, un sistema de marca de agua para identificar el contenido generado por IA, “en el futuro si implementamos el modelo en un producto OpenAI”.
OpenAI just dropped their Sora research paper.
— Bilawal Sidhu (@bilawalsidhu) February 16, 2024
As expected, the video-to-video results are flipping spectacular 🪄
A few other gems: pic.twitter.com/MiRe2IYkcI
Look at this cat video!
— iArgue (@x_ai_a12) February 16, 2024
Do you notice anything odd?
Well this is not a real cat! It's created by OpenAI's new model called "Sora" ! pic.twitter.com/JYsO5ZdF1A
La compañía de Sam Altman reconoce las limitaciones que aún tiene el modelo y que recuerdan al estado de las IA de texto a imagen, como Midjourney o la propia DALL-E, hace un par de años, cuando eran habituales las inconsistencias en los dedos de las manos, por ejemplo. Ese ya es un problema muy poco frecuente y lo mismo sucederá con Sora u herramientas similares.
Al igual que pasa(ba) con las imágenes, la IA todavía no sabe qué hacer con las manos en los vídeos.
— Jakub Motyka 🤖 (@jakubmotyka) February 16, 2024
Las choco, las muevo, las tengo quietas... ahí Sora implosiona. pic.twitter.com/T2bPmD4nvz
OpenAI ha introducido una nueva red neuronal, #Sora, que genera vídeos muy realistas basados en descripciones de texto. Este es el modelo de IA más avanzado hssta hoy.
— † Rafa Folgado 🇪🇸🤚 (@elsoberado) February 16, 2024
El director de la empresa, Sam Altman, comparte los resultados de la generación en función de las solicitudes pic.twitter.com/3KC50WFHL3
“El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco. El modelo también puede confundir los detalles espaciales de un prompt, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica”, explica OpenAI.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Sin dudas, Sora, de @OpenAI, representa uno de los saltos más grandes en la historia de la generación de videos artificiales🤖.
— Mariana Sánchez Caparrós (@mscaparros) February 16, 2024
Qué es real y qué no es real será una pregunta frecuente.
Nuestro sentido de la vista ya no es suficiente para decirlo…
🔥 pic.twitter.com/Qwfg1ApP9K
Sora es un modelo de difusión que, como los modelos de lenguaje GPT detrás de ChatGPT y Copilot, utiliza la arquitectura Transformer que Google desarrolló la pasada década y ha permitido la actual ola de herramientas de inteligencia artificial generativa. Comienza generando un vídeo que parece solo ruido estático y del que va “eliminando el ruido a través de muchos pasos”. Un aspecto al que no se ha referido la compañía es cuánto tarda el proceso de generación de vídeo.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
https://t.co/rPqToLo6J3pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024
Con Sora, la generación de vídeos por IA da un salto similar al que dieron las herramientas de texto a imagen durante el año pasado. Si el potencial para crear una realidad ficticia en todo tipo de pantallas ya era grande, con Sora se desdibuja por completo la línea que separa la realidad de los contenidos sintéticos.
✕
Accede a tu cuenta para comentar