Inteligencia artificial

Meta lanza una IA para crear música a partir de texto: así puedes usar Audiocraft

Se trata de una suite de herramientas generativas de código abierto que cualquiera puede probar y los desarrolladores utilizar para crear herramientas y aplicaciones propias

Meta lanza una IA para crear música a partir de texto: así puedes usar Audiocraft.
Meta lanza una IA para crear música a partir de texto: así puedes usar Audiocraft.Meta.

El carácter restringido de las herramientas generativas de texto a música, como es el caso de MusicLM de Google, las ha mantenido en un segundo plano frente a otros tipos de inteligencia artificial como ChatGPTo Midjourney. Meta ha cambiado esta situación con el anuncio de una suite de herramientas generativas de texto a audio llamada Audiocraft y que se encuentra a libre disposición de cualquiera que quiera emplearlas.

Audiocraft está compuesto por tres herramientas diferentes que cubren diferentes áreas de la generación de sonidos. MusicGen crea música a partir de las indicaciones en texto que introduce el usuario y es un modelo de lenguaje que ha sido entrenado con "20.000 horas de música propiedad de Meta o con licencia específica para este fin", según ha explicado Meta en su blog. AudioGen crea efectos de sonido a partir de descripciones de texto como los ladridos de un perro o unos pasos y ha sido entrenado con una biblioteca de datos pública. Por último, el decodificador EnCodec, del que Meta había hablado en ocasiones anteriores, ha sido mejorado para crear sonidos con menos artefactos o imperfecciones.

Las tres herramientas han sido publicadas bajo una licencia de distribución libre con la que cualquiera puede aprovechar la tecnología para usarla en sus aplicaciones o cualquier otro fin. Se encuentran disponibles a través del repositorio GitHub y de HuggingFace, donde también se puede acceder a la demo de MusicGen.

Es en esta demo donde cualquier usuario que no quiera liarse con aspectos técnicos puede probar las virtudes de este modelo de lenguaje. Crear un clip de 15 segundos de música es tan sencillo como introducir en la demo de MusicGen una descripción, en inglés, de lo que se quiere, esperar unos minutos y obtener un archivo MP4 para reproducir o descargar en el equipo del usuario.

Algunos prompts o descripciones de texto sugeridas por MusicGen son "una canción pop de los 80 con tambores pesados y pads de sintetizador de fondo", "canción de rock de los 90 con guitarra eléctrica y batería pesada" o "una alegre canción country con guitarras acústicas", entre otras. Depende tanto de la imaginación del usuario como de los parámetros con los que ha sido entrenada la IA, pero hemos comprobado que también admite instrucciones como crear un determinado tipo de canción en el estilo de una banda determinada.

"Creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, como los sintetizadores cuando aparecieron por primera vez", ha señalado la compañía, que espera que su nuevo modelo pueda marcar el comienzo de una nueva ola de canciones. También ha reconocido que la razón para la libre distribución de Audiocraft es que se necesita diversificar los datos con los que han sido entrenados estos modelos de lenguaje.

"Reconocemos que los conjuntos de datos utilizados para entrenar nuestros modelos carecen de diversidad. En particular, el conjunto de datos de música utilizado contiene una porción más grande de música de estilo occidental y solo contiene pares de audio y texto con texto y metadatos escritos en inglés. Al compartir el código de Audiocraft, esperamos que otros investigadores puedan probar más fácilmente nuevos enfoques para limitar o eliminar el sesgo potencial y el mal uso de los modelos generativos", ha explicado Meta.