Inteligencia artificial

Vlogger, la distópica IA de Google que da repelús

Con solo una foto y una pieza de audio, permite crear un vídeo en el que la persona se mueve y habla. Y no requiere conocimientos para su uso.

Vlogger
Seis de las 800.000 identidades que tendría disponible VloggerGoogleGoogle

Si ya nos hemos habituado a la opción de crear imágenes a partir de texto y en breve tendremos disponible usar palabras para hacer lo mismo con vídeos, ahora llega la opción intermedia: usar una imagen para crear un vídeo. Y que en este se pueda escuchar al protagonista. Se trata de Vlogger, la última tecnología de Google.

Los científicos del gigante de los buscadores han desarrollado un nuevo modelo de inteligencia artificial que puede transformar una única imagen fija de una persona en un avatar que habla y se mueve. Los resultados son tan sorprendentes como distópicos.

En un documento técnico, el equipo de Google describe a Vlogger como un "marco novedoso para sintetizar humanos a partir de audio", y agrega que "es precisamente la automatización y el realismo conductual lo que buscamos en este trabajo... una interfaz multimodal para un agente conversacional encarnado." Este "agente", continúan, está en última instancia "diseñado para respaldar conversaciones naturales con un usuario humano". Básicamente, una foto que, gracias a la IA se mueve y habla. Y que interactúe de manera realista con seres humanos reales en el otro extremo.

En el artículo, los investigadores proponen que este modelo, que requiere solo una imagen y una pieza de audio, podría usarse para "mejorar la comunicación en línea, la educación o los asistentes virtuales personalizados". Vlogger también puede editar vídeos en movimiento, lo que, según los investigadores, "facilitará los procesos creativos".

Sin embargo, no mencionan que una herramienta que podría generar videoclips completamente artificiales, en movimiento y hablando a partir de una sola imagen, parece propicia para el abuso por parte de… Básicamente cualquiera. Los deepfakes de IA, por ejemplo, ya son un problema creciente. Pero si bien generar un deepfake es más fácil que nunca debido a la disponibilidad pública de herramientas de IA generativa, crear uno que sea convincente generalmente requiere una combinación de múltiples herramientas de IA. En este momento, cuando se utiliza el modelo Vlogger, los usuarios aún deben proporcionar el audio deseado para el video. Aun así, Vlogger probablemente agilizaría el proceso en general.

Es más, según el documento presentado, Vlogger "no requiere que el usuario tenga formación para poder usar la tecnología”. Los autores, liderados por Enric Corona, señalan que “genera la imagen completa” y "considera un amplio espectro de escenarios que son críticos para sintetizar correctamente a los humanos que se comunican”.

En pocas palabras, eso significa que Vlogger no requiere entrenamiento específico para cada persona, cualquiera podrá crear un vídeo falso, pero realista a partir de una sola imagen de casi cualquier persona. Cualquiera. Obviamente, nada podría salir mal… léase en tono irónico.

Las animaciones de IA de Vlogger aún no son perfectas. Todavía tienen un toque claramente inhumano, moviéndose y hablando de una manera extrañamente robótica. Hasta ahora se la alimentó con 2.200 horas de video y "800.000 identidades", según el documento, pero hay tiempo para mejorar, lo que quiera que signifique en este caso esa cualidad. Y cuando sea mucho mejor, puede que ya sea tarde para comprender el problema.