Diseño

Un «Google» para los textos escritos a mano

Investigadores suecos buscan cómo automatizar, al menos parcialmente, el rastreo de documentos no hechos a máquina

Per Cullhed, director de la Unidad de Conservación de la biblioteca Universidad de Uppsala
Per Cullhed, director de la Unidad de Conservación de la biblioteca Universidad de Uppsalalarazonfreemarker.core.DefaultToExpression$EmptyStringAndSequenceAndHash@731b78c5

Poder utilizar los ordenadores para analizar y buscar en textos escritos a mano revolucionaría la investigación de las humanidades. Y la tecnología para digitalizar los libros impresos y hacer búsquedas en ellos ya existe.

La biblioteca de la Universidad de Uppsala (Suecia) ha lanzado recientemente una plataforma digital, Alvin, donde las obras digitalizadas de las colecciones patrimonio cultural están siendo recogidas en una sola base de datos. Con unos pocos clics, será posible buscar a través de las colecciones, abriendo nuevas posibilidades para los investigadores y otras personas interesadas.

«Las obras se pueden buscar, por ejemplo a través de Google, lo que significa que usted puede revisar materiales históricos y encontrar nuevos ángulos», explica Per Cullhed, estratega de desarrollo en la biblioteca de la Universidad, en la información de ésta, informa Tendencias 21.

Cuando la biblioteca universitaria digitaliza libros de colecciones del patrimonio, utiliza un software que convierte las páginas a texto digital, conocido como Reconocimiento Óptico de Caracteres (OCR). El software interpreta la información impresa y la hace buscable. Con la escritura, se utiliza la tecnología HTR -reconocimiento de texto escrito a mano- en su lugar. Es el desarrollo de esta tecnología el que está creando una especie de carrera entre los investigadores de todo el mundo.

«Quieres ser el primero en encontrar un programa que funcione. Si alguien tuviera hoy un algoritmo para realizar búsquedas digitales a gran escala de cosas como la colección de manuscritos de la Biblioteca Vaticana, valdría una fortuna. Aunque el valor de mercado es enorme, también lo es la magnitud de la tarea», dice Anders Brun, director del proyecto en el Departamento de Tecnología de la Información.

En el proyecto de investigación interdisciplinar De la pluma a los bytes, Anders Brun y sus colegas están tratando de desarrollar un método que permita analizar y buscar en grandes cantidades de textos escritos a mano. El proyecto consiste en investigación básica, que a largo plazo debería resultar en software acabado.

«Lo llamamos habitualmente el Google de la escritura a mano: una manera de encontrar rápidamente lo que busca a pesar de que la cantidad de información es enorme «, dice.

El proyecto se inició en enero de 2013 y tendrá una duración de unos cinco años. La financiación se compone principalmente de una subvención del Consejo de Investigación sueco, por valor de 1,5 millones de euros.

Frederick Wahlberg, estudiante de doctorado en el Departamento de Tecnología de la Información, está trabajando actualmente en manuscritos medievales en sueco antiguo en colaboración con Mats Dahllöf, investigador en lingüística y filología, y Lars Mårtensson, profesor asociado en el Departamento de Idiomas escandinavos. Más adelante en el proyecto, buscarán en la más reciente colección Waller, que se encuentra en la biblioteca de la universidad.

«Los textos son muy difíciles de leer y es imprescindible colaborar entre varias disciplinas si queremos tener éxito», afirma Wahlberg.

La clave

El núcleo del trabajo tiene que ver con la decodificación de texto, con encontrar un método a través del cual el equipo intenta interpretar la imagen digital del texto. Los investigadores están tratando de evitar la interpretación de texto porque un texto escrito a mano puede ser muy diferente dependiendo de quien sostuviera la pluma. En su lugar, quieren enseñar al ordenador a interpretar el material.

«Utilizando conocimiento experto, tratamos de dar al ordenador la respuesta correcta para una pequeña porción del material y luego automatizarlo», explica Wahlberg.

El conocimiento de los expertos sobre lo que es interesante y sobre cómo difieren unos escritores de otros les ayuda a avanzar en su trabajo.

«El ordenador nos puede ayudar, pero no puede resolver todos nuestros problemas. Todavía es necesario que haya un conocimiento experto para interpretar el material y hacer las correcciones», dice Anders Brun.

Sin embargo, para los investigadores en humanidades, la oportunidad de hacer manuscritos buscables a gran escala revolucionaría su trabajo y crearía todo tipo de nuevas posibilidades.

«Este tipo de software es un poco un Santo Grial para los investigadores que quieren abrir nuevos caminos digitales en áreas como la historia, los estudios religiosos y la lingüística. ¡Significaría tanto para la investigación!», resume Brun.

Productos

Los primeros productos de hardware que interpretaban la escritura a mano y la traducían a texto a máquina aparecieron en la década de 1980. Sustituían al teclado.

El sistema se empezó a usar de forma habitual en las PDAs, y más tarde en las tabletas. Algunos sistemas de Windows para PC incorporan sistemas de este tipo, más avanzados que los de su sistema para móviles.

Sin embargo, su uso no se ha extendido en los ordenadores de sobremesa ni en los portátiles, porque se considera que la introducción de texto mediante teclado es más rápida y fiable.

En cuanto al software, el primer programa apareció en 1962. En la década de 1990 aparecieron dos programas capaces de reconocer el texto escrito, que han seguido evolucionando desde entonces.

Más información en Tendencias 21