Inteligencia Artificial

La IA que le hubiera gustado usar a Leonardo: pone a La Mona Lisa a rapear

Se trata de VASA-1, fue desarrollada por Microsoft y para “jugar” con ella solo basta la imagen de una persona y una pista de audio, el resto está cantado.

Basta una imagen, foto, pintura o dibujo, para crear un vídeo creíbleMicrosoftMicrosoft

Juan Scaliter
Juan Scaliter

Creada: 20.04.2024 09:44

Última actualización: 22.04.2024 16:54

La inteligencia artificial, al igual que otras tecnologías disruptivas como la genética o la energía nuclear, tiene dos lados: uno positivo y uno negativo. La capacidad de la IA para acelerar la investigación científica, por ejemplo, con el descubrimiento de fármacos, es indudable. Al igual que su capacidad para manipular la opinión pública. Y este es el caso de Vasa-1, la innovación del equipo de investigadores de inteligencia artificial de Microsoft Research Asia, una IA que da vida y audio al retrato de una persona.

De acuerdo con un estudio VASA-1 es capaz de convertir una imagen fija de una persona y una pista de audio en una animación que retrata con precisión al individuo hablando o cantando la pista de audio con expresiones faciales que son casi indistinguibles de un vídeo.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

El equipo de investigación buscó animar imágenes fijas hablando y cantando, utilizando cualquier pista de audio de respaldo proporcionada, y al mismo tiempo mostrando expresiones faciales creíbles. Claramente, tuvieron éxito con el desarrollo de VASA-1, un sistema de inteligencia artificial que convierte imágenes estáticas, ya sean capturadas por una cámara, dibujadas o pintadas, en lo que describen como animaciones "exquisitamente sincronizadas".

El grupo ha demostrado la eficacia de su sistema publicando breves vídeos de los resultados de sus pruebas. En uno, una versión de dibujos animados de la Mona Lisa interpreta una canción de rap; en otro, una fotografía de una mujer se ha transformado en un espectáculo de canto, y en otro, un dibujo de un hombre pronuncia un discurso.

The First AI-Generated Video That Looks Super Real

Microsoft Research announced VASA-1.

It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR
— Bindu Reddy (@bindureddy) April 17, 2024

En cada una de las animaciones, las expresiones faciales cambian junto con las palabras de una manera que enfatiza lo que se dice. Los investigadores señalan también que, a pesar de la naturaleza realista de los videos, una inspección más cercana puede revelar fallos y evidencia de que han sido generados artificialmente.

Introducing: VASA-1 by Microsoft Research.

TL;DR: single portrait photo + speech audio = hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements, generated in real time.

Tap to see all the videos. pic.twitter.com/pPC6qZOBW2
— Eduardo Borges (@duborges) April 18, 2024

El equipo de investigación logró sus resultados entrenando su aplicación con miles de imágenes con una amplia variedad de expresiones faciales. También señalan que el sistema produce actualmente imágenes de 512 por 512 píxeles a 45 fotogramas por segundo. Además, tomó un promedio de dos minutos producir los videos utilizando una GPU Nvidia RTX 4090 de escritorio, es decir, tecnología disponible.

El equipo de investigación sugiere que VASA-1 podría usarse para generar avatares extremadamente realistas para juegos o simulaciones. Al mismo tiempo, reconocen el potencial de abuso y, por lo tanto, no ponen el sistema a disposición para uso general.