Ciencia y Tecnología
Piensa antes de hablar
Los sistemas de reconocimiento de voz ya no solo se utilizan para asistentes inteligentes, también han invadido campos como la medicina, la industria espacial y hasta el empleo o la banca.
Los sistemas de reconocimiento de voz ya no solo se utilizan para asistentes inteligentes, también han invadido campos como la medicina, la industria espacial y hasta el empleo o la banca.
Todos conocemos de sobra las capacidades de Siri, Cortana o Alexa. Lo mismo ocurre con los sistemas de inteligencia artificial (IA) diseñados para smartphones de Samsung, Huawei o Google. El reconocimiento de voz ya no es ninguna sorpresa y a menudo nos descubrimos, a nosotros o a nuestros vecinos de asiento en el tren, clases u oficina, haciéndole alguna pregunta o pidiéndole alguna dirección al móvil. Pero, lo cierto, es que hay mucho más detrás de esta tecnología.
En 1995, Shlomo Peller, de la Universidad de Tel Aviv, creó la empresa Rubidium con la idea de que todo –desde el televisor, al microondas o los vehículos– podría controlarse por la voz, si fuera posible desarrollar sistemas económicos y de tamaño reducido. El primer prototipo que diseñaron fue un teclado que costaba más de 700 euros. Uno de los últimos es un microchip que apenas llega a los 0,80 céntimos.
El sistema de reconocimiento por huella dactilar, que muchos usamos en nuestros móviles, detecta unas 19 variables para confirmar la identidad. Los sistemas de Interfaz de Voz del Usuario (VUI por sus siglas en inglés) analizan casi un centenar, que van desde el acento, la cadencia, la pronunciación y llegan a la forma y tamaño de la laringe, los orificios nasales y el tracto vocal (formado por la cavidad oral, nasal, la faringe y la laringe). Esto le da una fidelidad muy interesante a la hora de aplicarla a diversas industrias y sectores.
Mientras en la mayoría de los relatos criminalísticos y delictivos siempre se habla de testigos, huellas dactilares y ADN, hay ocasiones en las cuales todo esto es imposible de obtener. Morpho (con base en Francia) y la española Agnitio, dos empresas especializadas en soluciones de identificación, han sido convocadas por diferentes agencias europeas para dar soluciones en aquellos casos en los que solo se dispone de audio, como por ejemplo en casos de secuestro o extorsión. La gran ventaja de la tecnología desarrollada por estas empresas es que, al analizar parámetros biométricos, no utiliza el idioma y le da lo mismo que el secuestrador tenga acento de un país determinado. Gracias a ello su porcentaje de éxito es del 99% a la hora de identificar al responsable de la llamada.
El uso de la biometría en este sector ha resultado ser una herramienta fundamental en la medicina. Expertos de la Clínica Mayo, por ejemplo, se han asociado con la empresa Beyond Verbal y, en un estudio doble ciego (ni los voluntarios ni los científicos sabían si estaban utilizando la herramienta o una técnica que no utilizaba el reconocimiento de voz) con 120 voluntarios, descubrieron características de la voz asociadas a una posibilidad casi 20 veces mayor de sufrir una enfermedad cardíaca. Específicamente lo que se detectó fue que existen segmentos específicos de la voz capaces de predecir la cantidad o el grado de las obstrucciones halladas en una angiografía. Todo esto con apenas 90 segundos de audio. Los responsables de la tecnología señalan que, gracias al reconocimiento de voz, el móvil podría usarse como una herramienta de detección predictiva de bajo coste para identificar a los pacientes con mayor riesgo de enfermedades cardíacas, así como para controlar, de forma remota, a quienes hayan sido intervenidos recientemente. Por ejemplo, los cambios en la voz podrían indicar si los pacientes han dejado de tomar sus medicamentos.
La misma tecnología se ha comenzado a utilizar para detectar vínculos entre los patrones de voz y el Trastorno por Déficit de Atención e Hiperactividad, Parkinson, dislexia y diferentes trastornos mentales. Los responsables del estudio, publicado en «Journal of Medical Internet Research», señalan que el análisis de voz podría vincularse a los sistema de IA presentes en los teléfonos móviles para enviar alertas a los sistemas de emergencias en caso de detectar un problema.
Pero Beyond Verbal, una empresa con base en Israel, es la responsable también de Moodies. Esta aplicación ya está siendo usada en 174 países para identificar el estado emocional de las personas. Se está utilizando ya en entrevistas de trabajo, zonas de seguridad de aeropuertos, centros comerciales, etc.
De acuerdo con la Organización Mundial de la Salud, más de 300 millones en todo el mundo sufren depresión. La organización señala que se trata de la principal causa de discapacidad a nivel global. En este contexto el reconocimiento de voz también puede jugar un papel importante, según explica Charles Marmar, director del Departamento de Psiquiatría de la Universidad Langone. A lo largo de 5 años, Marmar ha grabado voces de veteranos de guerra, analizado el tono, el ritmo, la frecuencia o el volumen, entre otras características, para identificar signos invisibles de estrés post-traumático o depresión. Mediante sistemas de aprendizaje automático comparó unas 40.000 voces y las pasó a través de un filtro de características específicas.Y descubrió 30 diferencias puntuales que identificaban a las personas con depresión. Por ejemplo, las personas con problemas mentales o cognitivos pueden alargar ciertos sonidos o tener dificultades para pronunciar frases que requieren movimientos complejos de los músculos faciales.
Así, la próxima vez que hables con tu teléfono piensa que allí hay mucha más tecnología que preguntar por un restaurante cercano.
✕
Accede a tu cuenta para comentar