Inteligencia artificial

La nueva IA de Google crea música, incluyendo la voz del cantante, a partir de una descripción de texto

MusicLM también puede generarla a partir una melodía silbada o tarareada

La nueva IA de Google crea música, incluyendo la voz del cantante, a partir de una descripción de texto.
La nueva IA de Google crea música, incluyendo la voz del cantante, a partir de una descripción de texto.UCM/SUTTERSTOCKUCM/SUTTERSTOCK

Investigadores de Google han publicado un paper en el que describen un nuevo modelo de inteligencia artificial generativa quecrea música a partir de una descripción de texto. No es la primera IA de este tipo, pero sus responsables aseguran que MusicLM es superior a otras que la han precedido como Riffusion, JukeBox, Dance Diffusion o AudioML, también de Google, “en calidad y fidelidad a la instrucción dada”.

MusicML es descrita como “un modelo que genera música de alta fidelidad a partir de descripciones de texto como "una melodía relajante de violín respaldada por un riff de guitarra distorsionado". Ha sido entrenada con 280.000 horas de música para poder crear instrumentaciones complejas de cualquier género musical, incluyendo la voz del cantante, y además de a partir de una descripción de texto, también puede crear música desde una melodía silbada o tarareada por el usuario.

La IA no está disponible para su uso ni Google tiene intención, por el momento, de que sea así. Los investigadores citan el riesgo de “posible apropiación indebida de contenido creativo” así como de potencial apropiación cultural o tergiversación. Durante un experimento con MusicML, comprobaron que un 1% de la música creada estaba siendo directamente copiada de las canciones con las que había sido entrenada.

Lo que sí han puesto los investigadores a disposición del público son clips de audio con los resultados que da la IA ante determinadas descripciones y que demuestran las capacidades de esta IA. No solo en la calidad técnica y compositiva de las piezas, que podrían pasar en muchos casos por composiciones realizadas por un músico, sino en la forma en que simula la voz humana cantando. Las letras no tienen ningún sentido, pero el tono y el sonido de las voces es convincente.

Los ejemplos publicados por los investigadores obedecen a descripciones de texto como “encantadora canción de jazz con un memorable solo de saxofón y un cantante solista “, “Techno de los 90 de Berlín con un bajo grave y pegada fuerte“ o “una fusión de reggaetón y música electrónica de baile con un sonido espacial y de otro mundo. Induce la experiencia de perderse en el espacio”.

“Demostramos que MusicLM se puede condicionar tanto en texto como en melodía, ya que puede transformar melodías silbadas y tarareadas de acuerdo con el estilo descrito en una leyenda de texto”, han señalado los investigadores en el paper. También han anunciado que publicarán los datos de 5.500 emparejamientos de texto y música creados para ayudar a entrenar otras inteligencias artificiales.