El nuevo avance de la inteligencia artificial es pasar de procesar datos a procesar palabras
El nuevo avance de la inteligencia artificial es pasar de procesar datos a procesar palabrasIOT EL INTERNET FDE LAS COSAS INLA RAZON

Así enseñan a las máquinas a hablar español

Un proyecto de la RAE con Telefónica, Microsoft, Google y Amazon trata de enseñar castellano correcto a la inteligencia artificial: no se trata solo de cuidar el idioma, sino en cómo pensarán los robots del futuro

Una lengua podría ser un sistema que combina letras y sonidos, de la misma forma que la programación informática combina unos y ceros. Un idioma, entonces, sería un «software» utilizado por los humanos para comunicarse mientras que, con lo segundo, podemos poner un cohete en Marte. Visto así, utilizar correctamente el lenguaje no debería suponer un desafío para los procesadores modernos, capaces de operaciones complejísimas en el ancho de un teléfono. Bueno, pues la cosa no es tan sencilla y no solo porque en vez de un código binario la lengua española combine 27 caracteres. Un idioma es un universo de significados, contextos, polisemias, acentos, estilos y, por supuesto, excepciones a la norma, irregularidades y caprichos del hablante. Dado que el sino de los tiempos nos lleva a relacionarnos cada vez más con programas, máquinas y aplicaciones con los que interactuamos en nuestra lengua materna, un proyecto de la Real Academia Española (RAE) junto a algunas grandes compañías tecnológicas, entre las que están Telefónica, Microsof, Google y Amazon, se ha propuesto que las máquinas hablen español y que lo hagan lo más correctamente posible. Pero el desafío va mucho más allá, porque atañe al futuro de la inteligencia artificial, a máquinas que no solo hablan, sino que «piensan» en un idioma. Pero primero, ¿cómo se enseña a hablar a una máquina?

300 años de conocimiento

Los límites del lenguaje humano son los de la imaginación. En cambio, los de un programa informático, digamos, una máquina, dependen de datos. Para salvar ese abismo, el de las palabras que se pueden procesar pero no entender, la RAE ha impulsado el proyecto Lengua Española e Inteligencia Artificial (LEIA) porque, en palabras de Santiago Muñoz Machado, director de la institución, «queremos que la inteligencia artificial hable español y que lo hable bien. A nosotros nos resulta difícil porque las máquinas no nos entienden bien, pero sí lo hacen los dueños de las máquinas, los grandes empresarios que las fabrican y para eso hemos puesto a su disposición todos los recursos desarrollados por la RAE en 300 años, para que los usen en el entrenamiento de las máquinas».

Según Chema Alonso, director técnico de Leia y director de la unidad global de Consumo Digital de Telefónica. «Las máquinas aprenden de forma parecida a los humanos. Nosotros vamos al colegio y leemos libros y asistimos a clases que nos ayudan a mejorar nuestro entendimiento, y con la inteligencia artificial sucede algo parecido. Le proporcionamos muchos datos escritos en español para que aprendan una tarea. Todo se basa en proporcionarle esos datos. Por ejemplo, a un programa traductor le damos el libro en versión original y las traducciones que se han realizado y, con ellas, el modelo de inteligencia artificial, basado en redes neuronales, ve cómo se va traduciendo en millones de libros cada una de esas expresiones». El gran problema es que en muchas ocasiones los datos que se le proporcionan a la máquina son obtenidos de un enorme corpus virtual y contienen incorrecciones que son aprendidas por el sistema y ahí es donde la RAE entra en juego con sus obras gramaticales y ortográficas.

En algunos casos, resulta milagroso que las máquinas nos entiendan. Marie Mulot, gerente general de Amazon en España pone un ejemplo muy gráfico respecto a su sistema de inteligencia artificial, Alexa, que tiene su origen en inglés: «Queremos que Alexa hable un español natural y por eso hay que adaptarla a la construcción gramatical, pero también a los usos en cada país. Y en España, por ejemplo, el verbo poner lo usamos para todo: poner una canción, poner plátanos en la lista de la compra, ponme con Laura o poner una alarma –explica–. La palabra mañana también nos dio muchísimos problemas, porque en inglés es “tomorrow” y también es “morning”, que son cosas distintas. Hemos trabajado esto y también los distintos acentos y los dialectos. Hay un Alexa en México y otra para el español que se habla en Estados Unidos. Hicimos aprender a Alexa los refranes, por ejemplo». En Google, según explicó Esther Marinas, hace tiempo que sus programas sugieren la corrección ortográfica pero ya han incorporado incluso la corrección gramatical.

Lenguaje natural y universal

Otra de las cuestiones importantes en las que se está entrenando a las máquinas es que el uso del lenguaje introduce sesgos, como el de género. «Hay que identificarlos y no es un problema sencillo, porque en nuestra lengua hay género y en muchas profesiones se ha dado una desviación estadística hacia un género o el otro con el tiempo y hay que conseguir entrenar a la inteligencia a partir de datos que la compensen», dijo Chema Alonso. «Para nosotros es una cuestión crucial y por eso algunas veces no nos queda más remedio que resolverlo de forma mecánica y que, en vez de que la máquina diga decir ’'espero que estés contento’', diga ’'espero que estés de buen humor’'. Pero podemos ser mucho más innovadores al respecto y proponer sistemas que sean más naturales».

Ese es el capítulo en el que entra el gran desafío: para hablar correctamente la «lengua natural» no basta con la mera combinación, sino que hace falta que las máquinas «aprendan» las mismas reglas para su uso que interiorizamos los humanos. En su caso, a esas reglas se las llama algoritmos. Como explica David Carmona, director general de Inteligencia Artificial en Microsoft, «estamos en la mitad de una transformación grandísima. Pasaremos de una inteligencia artificial que razona sobre datos o números a una que razona sobre el lenguaje, de una forma análoga a como lo hacen los humanos. En una nueva generación de sistemas que no solo utilicen datos, sino el conocimiento de otros humanos». Dicho de otra manera, el idioma será los cimientos sobre los que se desarrolle la inteligencia artificial del futuro, y en esa carrera es fundamental que el español esté entre los idiomas principales. «En Microsoft estamos trabajando en un concepto que es ’'lenguaje universal’'. Se basa en entrenar a una máquina con un modelo en un lenguaje y que sea capaz de pasarlo a cualquier otro. Como cuando un niño bilingüe aprende matemáticas en un idioma, puede resolver los problemas también en la otra lengua». «El momento para hablar de estos desafíos no puede ser más perfecto. Estamos a muy poco tiempo de asistir a una transformación radical y no podemos ir por detrás como hablantes del español. Hace falta que nos incorporemos de raíz, porque es vital que la inteligencia artificial del futuro no solo hable español perfectamente, sino que a partir de su uso y de sus múltiples aplicaciones, se produzca un efecto amplificador desde el inicio. Dentro de poco va a ocurrir una democratización de estas herramientas y es necesario que nuestro idioma esté representado», dijo Carmona. Prepárense para hablar con robots y recuerden el gracias y el por favor.