"Deepvoice"

Escucha a esta voz generada por Inteligencia Artificial coquetear contigo

El “software” para la creación de voces sintéticas de la “start up” Sonantic incorpora rasgos y actitudes sutiles como timidez, coquetear, bromear y jactarse en su última actualización

Captura del vídeo de Sonantic en el que demuestran las capacidades expresivas de su tecnología de voz generada por IA.
Captura del vídeo de Sonantic en el que demuestran las capacidades expresivas de su tecnología de voz generada por IA.La RazónCortesía de Sonantic.

Cuando John Flynn y Zeena Qureshi hablan de Sonantic, la “start up” que arrancaron en diciembre de 2018, suelen tomar como referencia la relevancia de los CGI (“Computer Generated Images” o imágenes generadas por ordenador) en el cine de las tres últimas décadas y el entretenimiento en general. “Lo que el CGI ha hecho por el aspecto visual es lo que la tecnología de Sonantic está haciendo por el audio”, explica Qureshi. Esa tecnología es un “software” capaz de generar voces por inteligencia artificial que suenan inquietantemente humanas y capaces de ser empleadas en una película o en un videojuego sin que el oyente detecte su origen artificial. También lo llaman “Photoshop para la voz”.

Para la mayoría, la experiencia de interactuar con una voz sintética no va más allá de lo que ofrecen voces claramente artificiales como las de los asistentes Alexa o Siri. Sin embargo, empresas muy jóvenes como Descript o Sonantic están logrando importantes avances en el terreno de los “deepfakes” de audio. El último de ellos lo presentó Sonantic aprovechando la reciente festividad de San Valentín. Esta semana han actualizado su tecnología con la capacidad de expresar un abanico de rasgos y emociones más sutiles y han publicado como ejemplo el siguiente vídeo en el que una voz generada por IA, sobre la imagen de una actriz, habla con el espectador y coquetea con él antes de explicar lo que es realmente.

“Escogimos el amor como tema, pero el objetivo de nuestra investigación es ver si podemos modelar emociones sutiles. Las emociones más obvias son algo más fáciles de capturar”, explica Flynn, CTO de Sontonic, según recoge The Verge. La tecnología que emplea la empresa genera la voz artificial a partir de modelos de voces humanas reales que procesa. El “software” es una herramienta de texto a voz que permite introducir los diálogos que se quieren reproducir con la voz IA especificando aspectos como el estado de ánimo del hablante y la forma de decirlo, además de emociones como ira, miedo, tristeza, felicidad y alegría. La actualización de esta semana ha permitido añadir rasgos y actitudes como la timidez, coquetear, bromear y jactarse, ofreciendo un nivel de personalización más profundo que el que puede encontrarse en el “software” de competidores como Descript. Por ejemplo, fueron los primeros en añadir a su herramienta de texto a voz la capacidad de gritar de forma creíble hace menos de un año.

Algunas de las opciones que ofrece la herramienta texto a voz de Sontonic.
Algunas de las opciones que ofrece la herramienta texto a voz de Sontonic.La RazónCortesía de Sonantic.

Sontonic considera que para crear una voz sintética que pueda expresar sutilezas como la guasa o el flirteo es clave poder incorporar sonidos que no son palabras como los de la respiración o risas entre dientes. Su “software” también permite ajustar el tono y la intensidad con que se habla.

“Creo que esa es la principal diferencia: nuestra capacidad para dirigir, controlar, editar y esculpir una actuación.”, dice Flynn. “Nuestros clientes son en su mayoría estudios de videojuegos triple A, estudios de entretenimiento, y nos estamos expandiendo a otras industrias. Recientemente hicimos una asociación con Mercedes (para personalizar su asistente digital en el automóvil) a principios de este año.” Aunque centrados en el mundo del entretenimiento, desde la empresa consideran que el mercado de la voz es enorme y con muchos casos de uso, desde publicidad y centros de llamadas hasta robots y audiolibros.

La plataforma de Sontonic consta de dos aspectos. Por un lado, está la tecnología que entregan a los estudios de juegos con la que ahorran las enormes cantidades de tiempo que implica la grabación de voces de actores reales. Por otro lado, trabajan con actores profesionales con los que crean modelos de voces. “Cada vez que se utiliza la voz sintética de un actor, este recibe una participación en las ganancias sin necesidad de realizar el trabajo por sí mismo”, explica Qureshi en el blog de la empresa.

La compañía también ofrece servicios de clonación de voces, algo de lo que el actor Val Kilmer puede beneficiarse desde el verano pasado. Kilmer superó en 2015 un cáncer de garganta que le ha dejado dificultades en el habla, pero ahora dispone de un modelo con su propia voz que puede emplear como desee en sus proyectos profesionales.

“Creemos que el uso de la tecnología para aumentar las voces de los actores será la nueva normalidad dentro de 5 años. Para los estudios, el “software” ofrece infinitas posibilidades para los creadores, además de ser más económico y rápido. Para los actores, el “software” ofrece ingresos pasivos, protección de voz y múltiples oportunidades. Para nosotros es importante que ambas partes se beneficien de esta revolución en la tecnología de audio”, concluye Qureshi.