El proyecto TeresIA recuperará y fomentará la terminología en español aplicando inteligencia artificial
La iniciativa, coordinada por el CSIC con la participación de varias instituciones
Creada:
Última actualización:
El CSIC coordina el proyecto de terminología en español TeresIA, que generará un metabuscador de acceso a terminologías en español de alcance panhispánico y desarrollará una metodología innovadora para la generación de terminología en español, basándose en inteligencia artificial pero también en las mejores capacidades humanas y conocimiento experto. El proyecto creará un corpus de literatura científica en español; diseñará una metodología de extracción de información aplicando técnicas de inteligencia artificial (IA) y Procesamiento del Lenguaje Natural (PLN) para extraer términos, mostrarlos en su contexto, validarlos, sancionarlos, transformarlos a formatos de la web de datos y hacerlos visibles y recuperables en distintos entornos, incluido el metabuscador.
"Todo ello generará un enorme conjunto de datos terminológicos abiertos, siguiendo principios FAIR; y favorecerá la interacción con comunidades de expertos a los que se implicará en los procesos de validación", indica la investigadora Elea Giménez Toledo, investigadora responsable del proyecto. "Desarrollar terminología en español en el marco de la ciencia abierta representa un avance para el multilingüismo", señala. La iniciativa ha sido dotada con 1,4 millones de euros por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), del Ministerio de Transformación Digital.
"Al trabajar con estándares tecnológicos, las palabras de la ciencia en español se conectarán con las palabras de la ciencia en otros idiomas. De este modo, se multiplican las posibilidades de recuperar y descubrir contenidos científicos en distintos idiomas. Además, se preserva la riqueza terminológica de cada lengua, se favorecen las traducciones especializadas (tanto la humanas como las automáticas), se entrenan algoritmos, y se mejora la enseñanza del español de especialidades, entre otras aplicaciones", detalla Giménez Toledo.
La idea primigenia de TeresIA surgió hace más de quince años, pero no había podido desarrollarse hasta el momento. Para Javier Pérez de Vargas, de la Real Academia de Ingeniería, "este proyecto apoyará una de las iniciativas estratégicas de la Real Academia, al incorporar las últimas tecnologías digitales en el proceso de identificación y definición automática de nuevos términos relacionados con la Ingeniería. Este desarrollo se configurará como un primer paso fundamental para el desarrollo de una Inteligencia Artificial generativa en el campo de la Ingeniería en español. La RAI se incorpora al consorcio aportando su conocimiento de la terminología de la Ingeniería en español y de las últimas tecnologías de procesamiento de lenguaje natural, de aprendizaje de máquinas (machine learning) y de modelos de lenguaje masivos (large language models) y se propone el despliegue de las herramientas que se desarrollen en la toda la comunidad de Ingenieria hispanoparlante".
La Plataforma Temática Interdisciplinar ES CIENCIA nació en 2019 con el reto de impulsar la calidad, la visibilidad y el reconocimiento de los contenidos científicos en español. El trabajo de colaboración interinstitucional de la plataforma ha hecho posible la configuración del consorcio que desarrollará TeresIA como acción estratégica del español y el multilingüismo en la comunicación científica, eje prioritario de investigación de Es Ciencia.
Uno de los objetivos de la plataforma es impulsar la integración de información/recursos en infraestructuras nacionales e internacionales, de forma que los contenidos científicos en español sean visibles y tengan proyección en distintas comunidades científicas. Este objetivo confluye con el eje estratégico 3 de la ENIA, consistente en “Desarrollar plataformas de datos e infraestructuras tecnológicas que den soporte a la IA”, encuadrado en la medida 14: «Impulso al Plan Nacional de Tecnologías del Lenguaje», cuyo objetivo es impulsar el desarrollo específico de tecnologías de inteligencia artificial en el ámbito del procesamiento del lenguaje natural.