Inteligencia Artificial
Es mi voz, pero es una IA quien habla por mí
Más allá de los vídeos divertidos y virales, la capacidad de la Inteligencia Artificial por clonar voces y traducirlas casi en tiempo real abre interrogantes, dudas y peligros
Belén Esteban hablando un perfecto inglés, al igual que El Fary, Loles León o Chiquito de la Calzada. Arnold Schwarzenegger cantando «I wanna dance with somebody» con la misma estética con la que Whitney Houston popularizase esta canción en los 80.
Es probable que te hayas topado con algunos de estos vídeos que ponen de manifiesto todo lo que la Inteligencia Artificial es capaz de hacer: mantener la voz de una persona y hacer que hable en otro idioma o entone una canción. Es una IA capaz, incluso, de modificar la articulación de la boca de las personas que aparecen en el vídeo para que se sincronice con el nuevo sonido que emite.
Esta aplicación de la tecnología que más está revolucionando el panorama social y mediático abre un universo de múltiples usos y posibilidades… pero también de un periodo incierto, tanto para ciertas profesiones (como traductores o dobladores) y para la sociedad en general por la aparición de nuevas estafas, delitos y noticias falsas.
Facilitar las reuniones
El empleo de la IA para asuntos de voz no es nuevo. Las aplicaciones de videoconferencia incluyen algunas de estas capacidades. Por ejemplo, la solución Webex by Cisco hace una transcripción a de idiomas con subtítulos a más de 100 idiomas (incluido español) y es capaz de detectar cara y gestos para comunicarse (manos o pulgares levantados; un corazón para expresar afecto…). También se realizan resúmenes de reuniones, llamadas y conversaciones.
Mientras, el desarrollo español LuzIA permite transcribir los audios de voz de WhatsApp a texto en apenas unos segundos y también plantearle preguntas a este canal mediante la voz. «Estamos recibiendo más de 8 millones de peticiones diarias, y aunque no puedo hacer público el % de voz, no es una cantidad despreciable», nos confirma uno de sus fundadores, Álvaro Higes, quien adelanta que «en un futuro (no muy lejano) Luzia también contestará en voz». Pero la viralización de estos nuevos usos ha llegado de la mano de unas herramientas que, de manera gratuita, permiten hacer los vídeos con los que arrancábamos este artículo.
Una de las startups que más ruido están consiguiendo con la traducción de voces y vídeos es Rask AI, especialista en clonación de voz. Según explica su CEO, Maria Chmir, a La Razón, Rask AI se creó para «ayudar a los educadores en línea a llevar a otros grupos demográficos los conocimientos que se crean mayoritariamente en lengua inglesa» ya que, con datos de UNESCO, en la mano, se saca que de 7.000 idiomas que hay en el mundo, solo 10 se utilizan en programas de enseñanza superior en Internet. «Nos gustaría cambiar eso, por lo que cabe suponer que las oportunidades de mercado son enormes», asegura.
La app es capaz de traducir y doblar audio y vídeo a más de 100 idiomas, detectar la voz de varios interlocutores en un mismo archivo y clonar la voz en inglés, alemán, polaco, español, italiano, francés, portugués e hindi. La traducción en tiempo real es algo en lo que se está trabajando.
Cómo funciona
Preguntada cómo funciona su herramienta, Chmir asegura que «implica varios pasos» y todos ellos «fundamentales para lograr un resultado satisfactorio».
El primer paso es la traducción. Este proceso «requiere un profundo conocimiento de los matices y modismos de la lengua de destino para garantizar la precisión y mantener el mensaje deseado». Además, se efectúa una «adaptación cultural» para «asegurarse de que el contenido del vídeo se ajusta a las preferencias y sensibilidades culturales del público destinatario». Por último, estaría el doblaje «una parte importante del proceso de localización, sobre todo en los vídeos con diálogos hablados».
No lo llames doblaje
«El error es llamar a eso doblaje». Raúl Lara, presidente de ADOMA (Sindicato de Artistas de Doblaje de Madrid), asegura a La Razón que entienden el revuelo montado («es muy curioso y tiene algo de morboso ver a Belén Esteban hablar un perfecto inglés»), pero matiza que, en realidad, no estamos viendo realmente a este personaje, sino «el resultado de un algoritmo que ha copiado de manera ilegal y devolver un timbre de voz que parece suyo pero no lo es».
Tras defender la profesión de doblador («es un complejo proceso artístico en el que intervienen muchísimos trabajadores y cuyos resultados nunca podrá igualar una IA, porque no tiene esa chispa que muchas veces se necesita»), abre un melón que también suscriben los traductores: las implicaciones legales que estos usos pueden acarrear.
Estas consecuencias pueden ser desde derechos de autor, de imagen o la responsabilidad civil, por mencionar algunos. Por eso, algunas voces, como ADOMA o algunos traductores, abogan por una regulación de la IA que también defienda sus intereses.
«La IA es capaz de pasar un idioma a otro, pero obvia todo el proceso intelectual que hay en una traducción», explica a título personal Fernando González, traductor jurado y presidente de APTIJ. Reconociendo que «no se le pueden poner puertas al campo», asegura que, personalmente, más que la supuesta amenaza que pueda suponer para su trabajo, le preocupan las cuestiones legales. «Hay implicaciones de protección de datos, propiedad intelectual, derechos de imagen».
Por eso, aboga por una regulación de la IA, pero «no para controlar sino para que todos tengamos claro qué implica utilizar estas herramientas».
Algo terrorífico
Más allá de vídeos divertidos, esta tecnología puede ser utilizada para fines perversos. La clonación de la voz es «peligrosísima» en valoraciones de Luis Corrons, Security Evangelist de Avast, porque «es muy difícil de distinguir de la voz real», reconoce.
Por eso, augura que los engaños y las estafas usando estos sistemas «van a estar a la orden del día», aunque sean objetivos más concretos y no tanto masivos como un ransomware. «Hay muchas aplicaciones y muchas son gratuitas, lo que hace que se vayan a multiplicar exponencialmente estos ataques», augura. Además, «cada vez va a ser más difícil saber si algo que ves es verdad o no», lo que puede ser utilizado para crear notificas falsas, hacer que se hunda una empresa o generar una crisis diplomática.
✕
Accede a tu cuenta para comentar