Inteligencia Artificial

OnmiHuman: la IA de TikTok que resucitó a Einstein

Se basa en 18.700 horas (más de dos años) de datos que le permiten recrear movimientos realistas a partir de fotografías.

Inteligencia artificial
Einstein citando a filósofos clásicos, ver para creer. Y viceversa.OmniHumanOmniHuman

Después de DeepSeek, el siguiente paso lógico era TikTok. Y ha llegado. Los investigadores de ByteDance (la empresa detrás de la red social) han desarrollado un sistema de IA que transforma fotografías individuales en vídeos realistas de personas hablando, cantando y moviéndose de forma natural, un avance que podría transformar el entretenimiento y las comunicaciones digitales. Y confundirnos.

El nuevo sistema, llamado OmniHuman, genera vídeos de cuerpo entero que muestran a personas haciendo gestos y moviéndose de forma que coinciden con su forma de hablar, superando a los modelos de IA anteriores que solo podían animar caras o partes superiores del cuerpo.

Cómo OmniHuman utiliza 18.700 horas de datos de entrenamiento para crear un movimiento realista. El ejemplo que se ha vuelto viral de esta tecnología es uno en el que se puede ver a Albert Einstein hablando sobre la importancia de la ciencia y su relación con las emociones… Algo que obviamente nunca ocurrió.

“La animación humana de extremo a extremo ha experimentado avances notables en los últimos años – señalan los responsables en un estudio publicado en arXiv -. Sin embargo, los métodos existentes todavía tienen dificultades para escalar como grandes modelos generales de generación de vídeo, lo que limita su potencial en aplicaciones reales”.

El equipo entrenó a OmniHuman con más de 18.700 horas de datos de vídeo humano (el equivalente a más de 2 años) utilizando un enfoque novedoso que combina múltiples tipos de entradas: texto, audio y movimientos corporales. Esta estrategia de entrenamiento de "omni-condiciones" permite a la IA aprender de conjuntos de datos mucho más grandes y diversos que los métodos anteriores.

“Nuestra idea clave es que la incorporación de múltiples señales de condicionamiento, como texto, audio y pose, durante el entrenamiento puede reducir significativamente el desperdicio de datos”, añaden los autores.

La tecnología marca un avance significativo en los medios generados por IA, demostrando capacidades que van desde la creación de videos de personas pronunciando discursos hasta la representación de sujetos tocando instrumentos musicales. En las pruebas, OmniHuman superó a los sistemas existentes en múltiples puntos de referencia de calidad.

El desarrollo surge en medio de una competencia cada vez más intensa en la generación de videos con IA, con empresas como Google, Meta y Microsoft que buscan tecnologías similares. El avance de ByteDance podría dar a su empresa matriz TikTok una ventaja en este campo de rápida evolución.

Los expertos de la industria dicen que esta tecnología podría transformar la producción de entretenimiento, la creación de contenido educativo y las comunicaciones digitales. Sin embargo, también plantea preocupaciones sobre el posible uso indebido en la creación de medios sintéticos con fines engañosos en diferentes áreas. Algo para lo cual, todavía no hay una medida de prevención clara.