El Corpus del Español incorpora 21 millones de nuevas formas ortográficas

La RAE presenta la versión 0.93 de una herramienta que cuenta ya con más de 316000 documentos para su consulta en línea

La palabra "español, la" en el diccionario de la RAE
La palabra "español, la" en el diccionario de la RAE

La Real Academia Española (RAE) presenta una nueva actualización del Corpus del Español del siglo XXI (CORPES XXI). En colaboración con la Asociación de Academias de la Lengua Española (ASALE), lanza la más reciente versión de la herramienta (la 0.93), que aterriza repleta de novedades. Cuenta con más de 316.000 documentos, que suman algo más de 333 millones de formas ortográficas. Estas proceden de textos escritos y transcripciones de textos orales.

El Corpus del Español del Siglo XXI lleva a cabo, de nuevo, su labor de referencia. En lingüística, se llama “corpus” a un conjunto lo más extenso y ordenado posible de textos. Se emplean habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones, a partir de los usos reales registrados. Con esto, un corpus como este tiene como principal objetivo el de obtener las características globales que presenta una lengua en un momento determinado de su historia.

La versión 0.93 incluye más de 4 millones y medio de formas referentes a transcripciones de textos orales, véase programas de radio y televisión, entrevistas en medios de comunicación, YouTube, etc. Asimismo, algunos archivos ofrecen el sonido alineado correspondiente a la transcripción, mientras que otros ofrecen la posibilidad de descargar el archivo de audio o la visualización del vídeo.

En cuanto al bloque de ficción -novelas, guiones de cine, relatos, obras de teatro...-, las formas de CORPES sobrepasan los 93 millones. Las contenidas en textos de libros de no ficción y en publicaciones periódicas -ciencias sociales, salud, política, artes, tecnología...-, se acercan a los 238 millones.

Así, los textos que proceden de libros suponen casi 166 millones de las formas, las publicaciones periódicas están presentadas con unos 158 millones y 6 millones y medio más provienen de blogs, entrevistas digitales, redes sociales y miscelánea. De esta manera, ha aumentado el número de textos producidos entre 2016 y 2020 de forma considerable, con algo más de 42 millones de formas en esta versión.