Tecnología

Así es la nueva IA de Google que crea mundos 3D en tiempo real a partir de texto o imágenes

Genie 3 llega 8 meses después de Genie 2 y supone un importante salto hacia adelante

Imágenes de los mundos interactivos generados por Genie 3 REMITIDA / HANDOUT por GOOGLE DEEPMIND Fotografía remitida a medios de comunicación exclusivamente para ilustrar la noticia a la que hace referencia la imagen, y citando la procedencia de la imagen en la firma 05/08/2025
Imágenes de los mundos interactivos generados por Genie 3.GOOGLE DEEPMINDEuropa Press

Google DeepMind ha anunciado la nueva versión de su 'modelo de mundo', Genie 3. Un 'modelo de mundo' es un tipo de IA generativa que permite crear entornos 3D con los que el usuario, humano o un agente de inteligencia artificial, puede interactuar.

Genie 1 y Genie 2, lanzadas a comienzos y finales de 2024, respectivamente, parecían más bien generadores de mundos de videojuegos, por las limitaciones que presentaban y la estética de los resultados. Su sucesor supone un importante paso hacia adelante en realismo, consistencia del mundo creado y capacidad de interactuar con él.

Con Genie 3, basta subir una imagen o introducir una instrucción escrita para crear el mundo virtual. A diferencia de un videojuego, que se construye con los recursos creados por artistas y desarrolladores, aquí todo lo hace la inteligencia artificial. Además, el entorno que Genie 3 genera de forma continua puede modificarse sobre la marcha -introduciendo nuevos personajes, cambiando objetos o el clima- mediante nuevas instrucciones de texto. Los ejemplos presentados por Google dan una idea de la versatilidad de la herramienta.

Frente a Genie 2, la nueva IA de DeepMind utiliza una resolución de 720p (360p en su predecesor) y 24 imágenes por segundo, muestra una mayor capacidad de navegación e interacción, la mencionada posibilidad de modificar el mundo en cualquier momento y sube el horizonte de interacción de 8 segundos a 'múltiples minutos'.

El vídeo en el que un usuario pinta una pared, se aleja de ella dejándola fuera de imagen y después vuelve para encontrar que se mantienen los brochazos que ha dado antes, es un ejemplo ilustrativo de esta capacidad.

El mundo creado también puede explorarse durante más tiempo, aunque Google no ha especificado el número de minutos; 'unos cuántos' en los que ha ampliado el único al que alcanzaba Genie 2.

Aunque las primeras versiones de Genie estaban enfocadas a la creación de videojuegos, las aspiraciones de Google son ahora mayores. Además de con fines de entretenimiento, DeepMind lo presenta como un instrumento de investigación y para entrenar robots y agentes de IA.

Uno de los problemas que encuentran las compañías de IA es la escasez de nuevos datos de entrenamiento. Tras alimentar a los modelos con prácticamente todas las webs y vídeos existentes, los investigadores están recurriendo a datos sintéticos para múltiples usos. DeepMind cree que los modelos de mundo pueden ser clave en este nuevo enfoque, ya que permiten entrenar agentes con mundos interactivos virtualmente ilimitados.

Con todo lo sorprendente que es Genie 3, también tiene sus problemas. Además de las limitaciones comentadas, sigue generando elementos incorrectos en el vídeo y los textos resultan ilegibles.

También hay límites en la forma en que los agentes de IA interactúan con estos mundos. Aunque se pueden crear entornos y eventos con condiciones realistas, no pueden modificarlos. Su papel se reduce a desplazarse por el mundo simulado, ya que aún no cuentan con la capacidad necesaria para influir en él. DeepMind sigue experimentando con la posibilidad de que varios agentes interactúen entre sí en un mismo entorno.

Genie 3, que debe de requerir una capacidad de computación muy importante, no está disponible para el consumidor general, pero Google concederá acceso 'a un pequeño grupo de académicos y creadores' que ayudarán a perfeccionar el modelo. La intención es aumentar la disponibilidad en el futuro.