Lenguaje

¿Quién enseña a hablar a las máquinas?

No solo los ingenieros son imprescindibles en las empresas tecnológicas. Los expertos en lingüística son quienes deben indicar a «Alexa» cómo interpretar acentos, formas de hablar e incluso el estado de ánimo del parlante. La próxima revolución digital será de letras.

¿Quién enseña a hablar a las máquinas?larazon

Jorge Alcalde

Creada: 29.09.2019 01:08

Última actualización: 29.09.2019 01:08

No solo los ingenieros son imprescindibles en las empresas tecnológicas. Los expertos en lingüística son quienes deben indicar a «Alexa» cómo interpretar acentos, formas de hablar e incluso el estado de ánimo del parlante. La próxima revolución digital será de letras.

Imagine un mundo en el que Siri entiende perfectamente nuestras instrucciones. No hay que repetir una y otra vez eso de «dónde está la panadería más cercana» hasta que el aparato pilla el significado. Un mundo en el que Alexa y Google Translator y el navegador de nuestro coche reciben nuestras instrucciones con naturalidad, da igual que estemos constipados, tartamudeemos, tengamos un acento especial o chapurreemos malamente un idioma. Un mundo, en fin, en el que las máquinas hagan lo que hacemos los humanos constantemente: esforzarse por entender al otro. Ese mundo está lejano (aún le queda mucho recorrido a la tecnología para imitar la capacidad humana de comprensión del lenguaje), pero llegará tarde o temprano. Y si lo hace será gracias al trabajo de una nueva legión de especialistas, a medio camino entre las letras y las ciencias, mitad filólogos y mitad ingenieros, que se encargan ya de enseñar a hablar a los robots. Son los lingüistas computacionales.

Posiblemente, la función humana más difícil de reproducir digitalmente sea la comprensión oral. Las nuevas tecnologías de síntesis de sonidos pueden hacer que un aparato emita una voz muy parecida a la humana. Lo vemos todos los días al recibir el mensaje del contestador de voz del teléfono, el agradecimiento de la máquina expendedora de tabaco, las instrucciones en la gasolinera o los consejos del navegador para girar a la derecha en la próxima rotonda. Imitar el habla es fácil. Pero imitar la comprensión del habla es un reto morrocotudo. Las máquinas no nos entienden bien. Y es que, a decir verdad, entender a los humanos es complicado. El principal problema es la variabilidad fonética. Nos parece que todos hablamos más o menos igual pero en realidad casi cada hablante tiene sus propias peculiaridades. Acentos, sesgos, modismos, estados de ánimo, imprimen a nuestra habla sutiles variaciones. Los humanos somos muy buenos a la hora de detectar y obviar esas variaciones. Podemos entender una frase pronunciada por un madrileño, un catalán o un sevillano aunque las tres sean fonéticamente muy distintas. Solventamos sin problema que alguien se coma el final de una palabra o se atasque en una consonante. Somos capaces de reproducir el significado de una frase de alguien que no habla bien nuestro idioma y cuyo acento no se parece en nada a la realidad. Pero las máquinas no saben hacerlo. En principio, los aparatos están diseñados para detectar patrones de sonido, convertirlos en cadenas digitales de números e interpretarlos. Hay que educarles para interpretar una casi infinita variedad de peculiaridades fonéticas, saber que «caza» y «casa» pueden ser la misma cosa o no según la región de la persona que hable. La cantidad de variaciones es tan grande que ni siquiera la tecnología más potente con la que contamos es capaz de abarcarla.

Un reciente estudio realizado por la Universidad de Manchester sirvió un bello ejemplo para entender hasta qué punto nuestra manera de hablar es personal e intransferible. Se analizó el modo en el que angloparlantes del Norte del Reino Unido pronunciaban la palabra «crux» (quid, meollo en inglés). La «u» central es un típico ejemplo de vocal intermedia a medio camino entre la «a» y la «o» que tanto nos cuesta pronunciar a los españoles. El estudio demostró que la pronunciación de esa vocal está influida por la biografía del hablante. Los ingleses que no se han mudado nunca y han vivido siempre en el mismo entorno la pronuncian más parecido a una doble «o» mientras que los que se han cambiado de casa usan una «u» abierta. Hasta el punto de que es posible deducir el número de veces que una persona se ha mudado de casa a partir del modo en el que pronuncia «crux».

No es extraño que Siri pueda volverse loca ante tantas variaciones azarosas en el modo de hablar de los humanos. Algunos expertos consideran que el mismo origen estructural de las palabras influye en cómo las pronunciamos. Existen sutiles diferencias de pronunciación entre la palabra «ganado» (participio pasado del verbo ganar) y «ganado» (conjunto de animales). Nosotros no las percibimos, pero una máquina muy afinada quizá sí. Por eso ha llegado a los centros de investigación tecnológica más punteros del mundo un nuevo grupo de personas que hasta ahora eran puramente «de letras»: los lingüistas. Y resulta que carreras como la de Filología, que se encontraban en franco retroceso en el mercado laboral, vuelven a estar altamente demandas. Según la Secretaría de Estado para el Avance Digital, tres de cada cuatro empresas dedicadas a tecnologías del lenguaje han contratado a un especialista en lingüística en el último año. En el Instituto de Ingeniería del Conocimiento de la Universidad Autónoma de Madrid lo saben bien. Allí licenciados en Filología e ingenieros trabajan para lograr que las máquinas reconozcan cada vez más frases, respondan correctamente a las instrucciones, aprendan los matices de un adjetivo e, incluso, identifiquen el estado de ánimo de los usuarios.

Los algoritmos matemáticos tienen ahora que compartir espacio con símbolos de texto y gráficos sintácticos. Sujeto, verbo y predicado son palabras que vuelven a pronunciarse en los templos del Big Data y la Inteligencia Artificial. El poder de estas nuevas herramientas es espectacular. La combinación de letras y ciencias en el laboratorio permite que se mejoren exponencialmente los programas de Inteligencia Artificial y «machine learning», que son los que dotan a las máquinas de capacidad de autoaprendizaje.

Los robots y los asistentes virtuales no necesitan que alguien le enseñe constantemente lo que tienen que hacer. Igual que nosotros, una vez que han aprendido que cuando un americano dice «amigou» se refiere a «amigo», son capaces de deducir para siempre que la «ou» final se traduce como «o» en ese caso. Es la magia de la nueva tecnología de autoaprendizaje que ahora empieza también a enriquecerse del talento «de letras».

También el clima

Y no solo de lingüistas. Otras áreas de la comunicación son igualmente necesarias en los laboratorios de inteligencia artificial. La unión de comunicadores, marketinianos e ingenieros puede producir métodos más fértiles de confección de algoritmos generadores de textos inteligibles, de traductores automáticos que sean sensibles a las peculiaridades culturales de la persona, incluso a su estado de ánimo según la hora del día o el clima o de contenidos digitales que superen los prejuicios humanos (sexismos, clasismos, racismos...). Puede que la próxima revolución digital se haga a lomos de las letras del mismo modo que la primera se hizo a lomos de los números. Pronto tendremos sistemas de pago mediante reconocimiento facial y asistentes robóticos que nos atiendan en la consulta del médico. El hardware está desarrollado. Pero de nada servirían esas tecnologías si las máquinas no supieran diferenciar un rostro iracundo de otro deprimido o si el asistente virtual tratara por igual a un paciente ordinario y a un refugiado recién llegado después de huir de su país. El matiz no está en las ciencias, está en las letras.