Modelo

Una IA plurilingüe sin presupuesto pero con expectativas

El nuevo modelo de lenguaje anunciado por el Gobierno, del que no se sabe cuál es su inversión, convivirá con otros modelos como MarIA, ya en desarrollo

B10. Barcelona, 12/04/05.- El Barcelona Supercomputing Center-Centro Nacional de Computación (BSC-CNS), que acoge el superordenador "Mare Nostrum", el cuarto más potente del mundo y el primero instalado en un centro público de investigación, ha comenzado hoy a funcionar oficialmente. EFE/MG
B10. Barcelona, 12/04/05.- El Barcelona Supercomputing Center-Centro Nacional de Computación (BSC-CNS), que acoge el superordenador "Mare Nostrum", el cuarto más potente del mundo y el primero instalado en un centro público de investigación, ha comenzado hoy a funcionar oficialmente. EFE/MGMGAgencia EFE

España va a construir un gran modelo fundacional de lenguaje de IA (LLM, Large Languaje Model) que será entrenado específicamente en español y lenguas cooficiales. Será un desarrollo en código abierto y transparente, según el anuncio realizado, y al que serán invitados a participar los países iberoamericanos.

Este desarrollo se realizará, en principio, mediante colaboración público-privada y en él participarán el Barcelona Supercomputing Center (BSC), la Red Española de supercomputación, la Academia Española de la Lengua (RAE) y la Asociación de Academias de la Lengua Española.

Según señalan fuentes del Ministerio a La Razón, este anuncio del modelo fundacional «muestra el compromiso del Gobierno con posicionar a España a la vanguardia de la tecnología» y supone un «esfuerzo que se materializa a través de la construcción de un gran modelo fundacional de lenguaje de IA, una iniciativa pionera en Europa que promete elevar la calidad de los productos tecnológicos desarrollados en nuestras propias lenguas».

Predominio del inglés

Los modelos de lenguaje requieren corpus masivos de datos lingüísticos pero, según datos del Gobierno, el inglés acapara hasta el 90% de los datos con los que son entrenados estos sistemas. «Nuestro proyecto abrirá las puertas a una nueva generación de productos tecnológicos enriquecidos con el vasto patrimonio lingüístico del castellano y las lenguas cooficiales de España», refuerzan las fuentes consultadas por esta redacción.

El reto del modelo que pretende desarrollar el gobierno es proporcionar una infraestructura lingüística abierta, pública y accesible para las empresas y que puedan desarrollar aplicaciones avanzadas para su posterior explotación económica (como asistentes inteligentes, sistemas conversacionales y de diálogo o modelos de generación de contenido). «Este proyecto es más que un avance tecnológico; es una apuesta por una infraestructura lingüística que sea abierta, pública y accesible para todos», subrayan.

El sector privado recibe con buenos ojos este anuncio. Muchos opinan que España se sitúa como un actor influyente y líder. Jorge Lukowski, director global de Marketing y Comunicación de Neoris, cree que este desarrollo «al fomentar la colaboración transfronteriza y el desarrollo de tecnologías inclusivas, no solo potenciará el liderazgo tecnológico de España, sino que también facilitará su participación activa en la conformación de políticas y estándares de IA a nivel internacional, asegurando que sus intereses y los de la comunidad iberoamericana estén bien representados en los diálogos globales sobre el futuro de la tecnología y la sociedad».

Para David Pereira, jefe de IA en NTT Data, «merece la pena el esfuerzo de invertir en los datos de entrenamiento, haciendo disponible la gran riqueza documental del lenguaje español y, sobre todo, desarrollando modelos “especializados” en distintos ámbitos». Además, y desde el punto de vista de la UE, «tendría sentido un gran proyecto europeo donde conjugáramos un campeón tecnológico del continente, como podría ser el caso de Mistral, desarrollando un modelo base, grandes centros de computación como el Marenostrum (BSC) y la gran riqueza cultural de los países miembro».

También hay voces que desatacan que la tecnología debe mantener un equilibrio con el aspecto humano. «De ahí entendemos que nace la idea de desarrollar un modelo de lenguaje de IA en castellano y en las lenguas cooficiales, en código abierto y transparente. Una iniciativa que indudablemente fomenta la igualdad lingüística y cultural, así como la innovación y el progreso tecnológico en todas las regiones», expresa Aiert Azueta Dudagoitia, Director Devoteam Cyber Trust Spain and Head of IAM Devoteam Global.

Mientras, Pablo Haya, director de Businness and Language Analytics en IIC, reconoce que España tiene talento especializado para llevar a cabo este tipo de iniciativas. «Creo que no podemos dejar pasar la oportunidad de fomentar un ecosistema con más actores que aporten en el ámbito de la economía del lenguaje y la IA. Sería de gran ayuda disponer de un gran corpus del español libre de derechos con el que el sector privado pueda desarrollar sus propios modelos lingüísticos».

Otras IA en español

Estas fuentes gubernamentales insisten en que este desarrollo tiene sentido porque «fortalecerá el sector tecnológico» y «reafirmará la importancia de nuestra diversidad lingüística, abriendo nuevas oportunidades para innovadores, empresas y la ciudadanía en general».

Sin embargo, no es la primera IA en español que está desarrollándose y desde organismos estatales. Así, el propio BSC estaba inmerso en el desarrollo de MarIA mientras que la Real Academia de la Lengua trabaja desde el año 2020 en LeIA, que pretende enseñar a las máquinas a hablar bien en español. ¿Cómo se combinan tantos anuncios? ¿Afectará a su desarrollo el reciente anuncio realizado por el presidente del gobierno? Fuentes del Ministerio señalan a esta redacción que todos estos proyectos «seguirán su camino como estaba previsto, y serán clave para los primeros pasos de este modelo fundacional. Hay que tener en cuenta que ahora hablamos de un modelo fundacional y no de un sistema de IA».

El Instituto de Ingeniería del Conocimiento (IIC) también dispone de RigoBERTa, un modelo de lenguaje en español. Según el IIC, RigoBERTa está entrenado para la comprensión general de nuestro idioma y cuenta con la posibilidad de adaptarse a diferentes dominios del lenguaje (legal, salud, etc.) para mejorar las aplicaciones del Procesamiento del Lenguaje Natural (PLN) en ámbitos específicos. Según sus explicaciones, a diferencia de los modelos generativos, RigoBERTa se especializa en tareas de análisis y comprensión (Natural Language Understanding, NLU): clasificación de textos, detección y extracción de entidades, análisis del sentimiento, etc.

Según Pablo Haya, RigoBERTa y MarIA son modelos lingüísticos de otra naturaleza. «Hay dos grandes familias de modelos, de comprensión y generativos. El anuncio del gobierno hace referencia a un gran modelo de lenguaje generativo, mientras que RigoBERTa y MarIA son modelos de comprensión. Estos modelos son de menor tamaño que los generativos, lo cual redunda en menores costes de desarrollo y operación, y están especializados en tareas concretas de clasificación y extracción de información», explica, añadiendo que «si quieres realizar una IA que clasifique noticias según su temática te va a interesar más utilizar un modelo como RigoBERTa que un modelo generativo». Según afirma, «la novedad de los modelos generativos es que han desbloqueado tareas que hasta hace poco eran inabordables en la práctica».

Lo que cuesta tener una IA

El ejecutivo no ha facilitado con qué recursos dispondrá este desarrollo ni la inversión que está prevista para hacerlo realidad. Y no se trata de un tema menor, teniendo en cuenta el alto coste que supone un despliegue de estas características.

No hay datos exactos de a cuánto puede ascender el desarrollo de una IA, pero los analistas calculan que el proceso crítico de formación de un gran modelo lingüístico como GPT-3 de OpenAI podría costar más de millones de dólares.

Otro ejemplo: Meta afirmó que su infraestructura para desarrollar su IA incluirá 350.000 tarjetas gráficas H100 de Nvidia, cuyo precio supera los 30.000 dólares la unidad.