MarIA, sistema pionero en Inteligencia Artificial de la lengua, comienza a generar textos

A partir de la gran cantidad de archivos de la Biblioteca Nacional de España, se han creado unos modelos de lenguaje que permiten crear escritos a partir de titulares o palabras

Presentación ante la Prensa de MarIA, con la presencia de Carme Arrigas (izda.), secretaria de Estado, Ana Santos, directora de la BNE, y Mateo Valero (dcha.), director del CNS
Presentación ante la Prensa de MarIA, con la presencia de Carme Arrigas (izda.), secretaria de Estado, Ana Santos, directora de la BNE, y Mateo Valero (dcha.), director del CNS FOTO: BNE

El idioma es algo más que una herramienta de comunicación. Es una forma de vida, una cultura, un reflejo de la sociedad. El español, en concreto, así como las diversas lenguas oficiales del Estado, es nuestra más importante disciplina social y económica, así como un tesoro que no solo se preserva y conserva, sino que también nos acompaña en la evolución. Como nosotros mismos, el idioma avanza, y lo hace de la mano de la tecnología, colaboración indispensable para valorar el pasado, presente y futuro lingüísticos, y que ahora se materializa en una herramienta pionera: MarIA. Se trata de un sistema de modelos de lengua, que son creados por Inteligencia Artificial y formados por un conjunto de redes neuronales. Estas son entrenadas en la comprensión del idioma, de su léxico y de sus mecanismos para expresar el significado y escribir a nivel experto. MarIA es, por tanto, capaz de entender no solo conceptos abstractos, sino también el contexto de los mismos, así como de generar textos, a partir de titulares o de palabras.

Este proyecto ha sido creado en el Centro Nacional de Supercomputación (CNS), a partir de la gran cantidad de archivos y documentación de la Biblioteca Nacional de España (BNE), así como ha sido impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA). “Desde hace años, la BNE impulsa una estrategia digital que nos está dando buenos resultados y nos permite la participación en proyectos tecnológicos tan punteros como este”, explica Ana Santos, directora de la Biblioteca, durante la presentación de la herramienta. Así, la institución, que durante más de 300 años ha atesorado unos 35 millones de ejemplares en físico -sumándose a esa cantidad el depósito electrónico-, recoge en su corpus “la evolución del lenguaje, por lo que es un material básico e ideal para proyectos así”, apunta Mar Pérez, directora de la División de Procesos y Servicios Digitales de la BNE.

Así, MarIA se alza como el primer sistema de Inteligencia Artificial masivo y experto en comprender y escribir en lengua española. Ha situado a nuestro idioma en el tercer puesto de aquellos que disponen de este tipo de modelos de lenguaje en abierto, tras el inglés y el mandarín. Así, el acceso libre permitirá que aplicaciones, compañías, grupos de investigación y la sociedad en general puedan disfrutar de su uso. “Con este tipo de proyectos, damos pasos firmes hacia una Inteligencia Artificial que piense en español, lo que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española”, explica Carme Artigas, secretaria de Estado de Digitalización e Inteligencia Artificial. “Porque la lengua es mucho más que un medio de comunicación, es una proyección de la forma que tenemos de ver el mundo, también en la nueva realidad digital”, añade.

“No acaba aquí”

Los datos de la BNE con los que se ha entrenado MarIA están constituidos por más de 135 mil millones de palabras, que ocupan un total de 570 Gigabytes. Un corpus, asegura Marta Villegas -responsable del proyecto-, “enorme, de los más grandes que hay en una lengua. Poder disponer de los datos de la Biblioteca es un absoluto lujo, porque permite conocer al sistema cómo se combinan las palabras a través de grandes cantidades de datos y de computación”. Con esto, para el entrenamiento del sistema se ha contado con un superordenador MareNostrum del BSC, así como se ha necesitado una potencia de cálculo de 9,7 trillones de operaciones. Esto, dice Villegas, “da una nueva idea de la magnitud de lo que cuesta preparar a un modelo de este tipo”.

A partir de este trabajo, ahora MarIA comienza a funcionar, y lo hará para versiones especializadas en distintas áreas de aplicación, incluyendo biomedicina y legal, así como para la generación de textos, de chatbots (sistemas conversacionales, en el que en un diálogo la máquina se encarga de generar parte de él), traducción automática, resumen de textos, simplificación de los mismos o sistemas de pregunta y respuesta. “Pero MarIA no acaba aquí”, asegura Villegas, “el proyecto es súper ambicioso, y el objetivo es hacer lo necesario para que el español disponga de esta infraestructura, y, para ello, proponemos garantizar el suministro continuo de datos masivos de calidad para entrenar a los modelos”. Con esto, no solo se refieren a datos de textos publicados, sino también a redes sociales y todo lo que aglutine, en palabras de la directora de BNE “al lenguaje que se habla en la calle”.