
IA mundo adio
Audio e inteligencia artificial: cómo la IA está revolucionando la producción, el sonido y cómo escuchamos música
La revolución silenciosa: cómo la inteligencia artificial está transformando radicalmente la industria del sonido, democratizando herramientas profesionales y creando nuevos paradigmas creativos

La inteligencia arificial ha llegado para quedarse. Nos guste o no, todo ha experimentado una enorme transformación por culpa de (o gracias a, depende de a quién se le pregunte) la IA: ChatGPT sigue copando muchas de las noticias de la actualidad (la útima que no es bueno ser educado con él), tenemos asistentes de IA en los ordenadores (Copilot, Apple Intelligence) y en los teléfonos móviles (de nuevo Apple Intelligence y Gemini de Google) y, en general, las tecnológicas están insertando funciones de IA en todas partes.
Como hemos dicho, nada se salva. por no salvarse, no se salva ni el audio. El sector ha experimentado una transformación enorme desde la irrupción de la inteligencia artificial, lo que ha llevado a que su papel en ámbitos tan dispares (y a la par tan comunes para el sector) como la tecnología, la producción musical, la creación audiovisual y el consumo cotidiano se haya visto profundamente alterado.
En el momento de escribir este artículo, la IA en el audio ha democratizado herramientas reservadas a profesionales, además de haber ayudado a originar nuevos paradigmas creativos y comerciales. Lo que queremos aquí es arrojar un poco de luz en todo lo que ha conseguido, centrándonos para ello en tres grandes grupos.
La IA y la evolución del sonido

Uno de los primeros ejemplos que vienen a la mente de cómo la inteligencia artificial está transformando el audio es el uso de esta tecnología para comprimir archivos de audio. Es el caso de lo que hablamos es del nuevo códec de hipercompresión de Meta, que reduce archivos de sonido a la décima parte de un archivo MP3 y sin pérdida perceptible. Para hacerlo se apoya en redes generativas daversarias (GANs), que distinguen entre componentes esenciales y redundantes del espectro sonoro. Después, un algoritmo "adivina" que frecuencias se han omitido y las reconstruye.
Sobre el papel parece muy prometedor pero, por mucho que Meta prometa que puede crear archivos comprimidos con calidad de CD, la verdad no se ajusta del todo a la publicidad. Sí, puede que sigan estando en una frecuencia de muestreo de 44,1 kHz (que es la que utilizan los CDs), pero la tasa de bits que se transmite por segundo es mucho menor (lo que significa que se ha eliminado mucha información por el camino). Seguramente lo que este algoritmo de hipercompresión está haciendo es devolver algo que se parece al original, pero no lo es del todo.
El siguiente ejemplo es audio espacial adaptativo para entornos profesionales. Steinberg, una de las empresas con más solera del mundo profesional, responsables de software tan importante para la industria como Cubase, Wavelab o Nuendo, se ha aliado con Embody, una empresa especializada en audio espacial. Con ellos han creado un programa muy especial llamado VST AmbiDecoder 4.0, que cuenta con una serie de funciones muy interesantes.
En primer lugar crea un perfil HTRF propio para cada usuario mediante IA. Un perfil HTRF (Head-Related Transfer-Function) es un mapa acústico único que define cómo tu anatomía (orejas, cabeza y torso) modifica los sonidos antes de llegar al tímpano. Es la "firma auditiva" que permite al cerebro localizar sonidos en un espacio 3D. Para hacer este perfil, VST AmbiDecoder 4.0 se apoya en la cámara de tu smartphone y mapea tu oído tridimensionalmente en 15 segundos.
Con esta información la tecnología permite realizar un seguimiento de la cabeza mucho más preciso, usando los sensores de inercia que llevan los auriculares compatibles con VST AmbiDecoder 4.0 y sincronizándolos con los giroscopios de tu smartphone. Esto se traduce en una mejor contextualización de los sonidos (lo que también cambia la percepción emocional del oyente, pero esto ya es meterse en terrenos de psicoacústica y no hace falta entrar ahí). Por ejemplo, también mediante IA se puede acentuar más una reverberación para provocar una respuesta determinada por parte del oyente.
Por último, la IA podría ser altamente disruptiva en aplicaciones de síntesis vocal. Imagina que ChatGPT no sólo lee un texto, sino que lo interpreta con emoción como si fuera un actor. Eso es la síntesis vocal, en esencia, y funciona de la siguiente manera en este caso:
La IA analiza el texto y detecta su tono; si es una noticia triste, una broma, una buena noticia o una orden urgente.
Después elige la emoción más acorde para el texto a través de una "biblioteca" de tonos grabados por humanos.
Por último, lo mezcla todo combinando palabras con pausas, subidas de tono y distintos nieveles de inventidad.
Esto abre posibilidades muy grandes para el doblaje de películas, entre otras cosas. En títulos como Dune, por ejemplo, se dobló a los actores en otros idiomas, pero conservando su emoción original (aunque en la versión española hay actores de doblaje acreditados). También un asistente virtual podría responderte con el tono adecuado para intentar calmarte, sin ir más lejos, y la inmersión en los videojuegos podría ir todavía más lejos haciendo que el avatar del usuario y su entorno reaccionasen en función de sus acciones.
¿Es perfecta esta tecnología? Pues no del todo. A veces confunde sarcasmo con enfado y suena rara en idiomas con muchos matices, como por ejemplo el japonés. Es como un actor que lee guiones con "sentimiento": en realidad no siente lo que lee, pero lo imita tan bien que puede pasar por real (y, de nuevo, se aprovecha de la psicoacústica para engañar al usuario).
Democratización de la producción musical y creación de nuevos lenguajes creativos

Aquí en primer lugar habría que hablar de modelos generativos de IA que crean canciones. Hay algunos de sobra conocidos por todos como Suno AI que, aunque no siempre dan en el clavo, si tus referencias son más o menos conocidas suelen acertar.
Hay uno más potente: Music Engine de AIVA Technologies, que puede generar composiciones completas en estilos que van del barroco al hyperpop. Se le ha entrenado con más de 30.000 partituras históricas, puede analizar estructuras armónicas y sugiere progresiones melódicas y de acordes contextuales.
Por otro lado,Moises AI es fantástico para generar stems. Los stems son, más o menos por separado, todas las pistas de percusión, guitarras, bajo, teclados y todos los instrumentos que hay en una mezcla agrupadas cada una en una única pista (es decir, que si una canción tiene 10 pistas de guitarra tú no verás las 10, sino una única pista que las contiene). Este modelo puede identificarlos y aislarlos con un 98,7% de precisión, lo que permite, por ejemplo, generar pistas instrumentales sin casi esfuerzo.
MasteringBOX es otro modelo muy en boga ahora mismo, sólo que en este caso se utiliza para el mastering (el equivalente sonoro de pasarle el Photoshop a una canción). La IA crea ajustes dinámicos adaptados al género musical y a la plataforma a la que va a ir a parar la obra. Es decir, crea temas masterizados específicos para Spotify, Apple Music o Tidal, por ejemplo. Otro ejemplo muy similar es Ozone de iZotope, que se suele usar para realizar masterizaciones rápidas y que de un tiempo a esta parte está incluyendo funciones de IA para impulsar el valor tonal de un tema musical concreto.
En el estudio, artistas como Billie Eilish o Bad Bunny han usado a la IA como co-creadora en sus álbumes. Ambos utilizan la IA para superar bloqueas creativos, en concreto la antes mencionada Suno AI (que analiza bocetos musicales y propone variaciones rítmicas) y plugins como Neural Mix Pro de iZotope (puedo dar fe de que tienen un arsenal de herramientas muy útiles) sugieren qué cosas se pueden hacer con los efectos en función de cómo interpretan el contexto emocional de una pista.
La IA en la producción audiovisual
Googel DeepMind tiene en V2A una poderosa herramienta. Este modelo es multimodal (combina varios tipos de datos para generar otro tipo de datos concreto) y genera efectos sonoros, diálogos y música sincronizados con un contenido visual. V2A analiza los fotogramas, detecta lo que pasa en ellos (un cristal rompiéndose, una persona alejándose por un pasillo) y crea capas de sonido coherentes con la escena. Directores como Christopher Nolan han experimentado con V2A para previsualizar escenas complejas antes de empezar a rodarlas.
Herramientas como Synthesia y DeepBrain AI, a un nivel más pequeño, han llevado el doblaje al terreno de la hipersonalización, de acuerdo con lo publicado por la firma de publicidad Gobo en su blog. Están pensadas para funcionar, como decíamos, a un nivel más cercano a lo que los usuarios de a pie están acostumbrados, pero los resultados que ofrecen pueden ser igualmente sorprendentes: crean avatares vocales que traducen diálogos, adaptan expresiones idiomáticas y sincronizan los movimientos labiales. Todo ello gracias a la tecnología de las GANs de la que hablamos en el apartado del grupo 1.
También la IA va a ser clave en la publicidad sonora. La combinación de análisis de datos en tiempo real y la síntesis vocal ha creado un nuevo ecosistema publicitario, según cuenta la firma Adlatina. Plataformas como AudioDynamic generan anuncios personalizados que son capaces de dirigirse al cliente mediante menciones geolocalizadas ("¿quieres tomar un café en Madrid Centro?"), referencias climáticas ("Protege tu piel del UV 9 actual") e incluso crear un historial de compras ("la camiseta que buscaste ayer está en oferta"). Piensa en que la radio o Spotify crean anuncios sólo para ti, para que entiendas mejor el concepto.
Para hacerlo usan datos que tienes en tu teléfono (como la ubicación, el clima o tus búsquedas recientes) para, después, que una IA mezcle plantillas de audio con los datos que recoge en el momento. Y todo esto se hace en 0,5 segundos, antes de que se reproduzca la siguiente canción de la cola de reproducción.
Audio de consumo hiperpersonalizado

Los asistentes personales han abrazado la IA y no lo ocultan. Siri en 2025 ya cuenta con Apple Intelligence, Alexa+ aparece como la versión más avanzada del asistente de Amazon y Gemini funciona como asistente y ya hasta aparece por defecto en las búsquedas de Google en la web.
Estas IA no sólo ejecutan comandos, sino que pueden mantener distintas conversaciones, recordar contextos anteriores y adaptar cómo responden al estado emocional detectado después de analizar la voz del usuario. Incluso pueden ajustar distintos parámetros de reproducción o crear playlists que evolucionen con el ritmo circadiano del usuario.
Spotify también ha introducido la IA en su plataforma. No sólo en determinadas listas de reproducción, sino también en su motor de recomendaciones. Ahora este motor combina análisis de los datos biométricos del usuario, el contexto ambiental y un "historial de escucha multidimensional" tal y como comentan en el portal Sympathy for the Lawyer. El resultado son listas como "Atardecer en A Coruña", que mezcla sonidos ambientales de la ciudad con, por ejemplo, temas acústicos. Todo esto, insistimos, generado por un modelo de IA.
Ahora hasta los auriculares inalámbricos llevan IA. Los JBL Tour One M3 han incluido la inteligencia artificial como parte de su sistema de cancelación de ruido adaptativa, dejando al usuario el control para usarla o no. Los Apple AirPods 4 van más allá: utilizan sensores para mapear la actividad cerebral y ajustar parámetros de sonido en tiempo real, según nos cuentan desde Gravis.
Este tipo de adaptación permite varias cosas: la principal, mitigar la fatiga auditiva. Otra secundaria, pero igualmente interesante, potenciar estados de concentración usando frecuencias binaurales (de nuevo entramos en el terreno farragoso de la psicoacústica). Y auriculares como los Sony Pulse Elite 3D para PS5 crean campos sonoros que reaccionan a los movimientos de la cabeza para generar una experiencia más inmersiva usando modelos de IA.
La IA ya es mucho más que una herramienta, hasta en el mundo del audio

La IA ha trascendido su rol de herramienta. Lo ha hecho en todas las industrias, aquí no iba a ser diferente. Ahora forma parte del proceso creativo sonoro, a pesar de los desafíos éticos que esto implica (como el asunto de que los modelos aprendan de contenidos protegidos por derechos de autor), así como retos a nivel técnico.
Lo que no se puede negar es que el momento en el que nos encontramos ahora mismo apunta a una democratización sin precedentes: están desapareciendo barreras técnicas y económicas para que cualquier persona, sin necesidad de tener formación especializada, pueda crear contenido profesional, acceder a tecnologías avanzadas e incluso superar limitaciones del entorno (por ejemplo, artistas con recursos limitados que obtienen producciones de mucha calidad).
De acuerdo con información publicada en Big Data Magazine, parece ser que de cara al futuro habrá modelos generativos que unificarán composición musical, diseño sonoro y producción visual en un solo sitio. Estamos ante el nacimiento de un nuevo lenguaje sensorial, donde el sonido empieza a ser una narrativa autónoma e inteligente.
Sin embargo, por mucho que se trabaje en ella, la IA nunca podrá reemplazar al toque humano. La creatividad humana seguirá siendo la que deba guiar a la tecnología y la que, en última instancia, tenga la voz y el voto suficientes para aplicarla correctamente.
✕
Accede a tu cuenta para comentar