Investigadores madrileños radiografían la Covid-19 a través de una encuesta por internet

Los datos obtenidos son similares a los del Instituto Carlos III sobre incidencia del virus

Antonio Fernández Anta, investigador del IMDEA y Rosa Elvira Lillo, directora del UC3M Santander Big Data Institute, impulsores del proyecto Corona Surveys
Antonio Fernández Anta, investigador del IMDEA y Rosa Elvira Lillo, directora del UC3M Santander Big Data Institute, impulsores del proyecto Corona SurveysJesús G. FeriaLa Razon

Por favor, elija un país. Ahora, una región. ¿A cuántas personas conoce que vivan en ella? Que usted sepa, ¿cuántas de las personas que conoce en esta región han sido diagnosticadas o han tenido síntomas compatibles con la Covid-19? ¿Cuántas están enfermas todavía? ¿Si usted se pone enfermo, ¿cuántas de las personas que conoce personalmente lo sabrían?... Las preguntas son parte de una encuesta que podría llevarle contestar menos de cinco minutos y que, sin embargo, pueden aportar una información valiosísima. Por sus respuestas y por las de otras tantas personas que como usted se brinden a completarla se puede saber la incidencia de covid-19 en tiempo real en lugares como la Comunidad de Madrid o en toda España y hasta en el mundo entero.

En eso consiste precisamente la inicitiva que ha nacido en Madrid y que lleva por nombre «CoronaSurveys». Se trata de encuestas abiertas y anónimas vía redes sociales y web que sirven para testar la situación de la Covid y que han aportado datos similares de incidencia del virus a los recogidos por el Instituto Carlos III.

«Es un sencillo cuestionario online a través del cual los participantes aportan datos de personas que conocen, de forma anónima, no aportan ninguna información que pueda llevar a la identificación ni de los encuestados ni de los enfermos», explica Antonio Fernández Anta, uno de los impulsores del proyecto y Research Profesor en IMDEA Networks, un instituto puntero de investigación de la Comunidad de Madrid que dependen de la Consejería de Universidades.

Los datos, obtenidos a través de una técnica de reporte indirecto, que recibe el nombre de Network Scale-Up Method, se procesan diariamente con técnicas estadísticas que permiten conocer no solo el número diario total de infectados sintomáticos, sino también observar la evolución de los contagios por país.

La iniciativa se puso en marcha en marzo del año pasado, con el comienzo de la primera ola de coronavirus. Un equipo internacional de investigadores de universidades y centros de investigación de todo el mundo liderados por Antonio Fernández Anta, del Imdea Networks, y Rosa Elvira Lillo, directora del UC3M Santander Big Data Institute, se propusieron determinar la incidencia real de la pandemia a través de internet con una encuesta indirecta. «Era 13 de marzo, un día antes del confinamiento y, después de ver las noticias, comprendimos que no había suficientes medios para hacer test a todos los enfermos y hacernos una idea de cuántas personas se podían haber infectado. Así que se nos ocurrió utilizar algún método indirecto para obtener resultados fiables que nos permitiera conocer la evolución de la pandemia», explica Fernández Anta.

Antonio Fernández Anta, investigador del IMDEA
Antonio Fernández Anta, investigador del IMDEAJesús G. FeriaLa Razon

La encuesta la arrancaron en España pero, en dos semanas, la desplegaron por Italia, Francia, Portugal, Reino Unido, Chipre, EE UU y Alemania. Sólo mes y medio después, ya estaba abierta a todos los países y traducida en cerca de sesenta idiomas. El proyecto dispone de una aplicación para teléfonos móviles para facilitar la participación ciudadana.

En total, unas 200 personas han llegado a ser partícipes del proyecto en todo el mundo y al menos un centenar de personas han colorado en la traducción de las encuestas en todos los idiomas, aunque Fernández Anta asegura que el núcleo central de la investigación lo componen 30 personas de 20 países, la mayor parte de los cuales son informáticos de profesión y estadísticos.

Desde que comenzó la pandemia han llegado a recopilar datos de más de 30.000 encuestas y, al tratarse de un cuestionario con preguntas indirectas, cada respuesta proporcionaría información sobre 50 personas aproximadamente, con lo que equivaldría a tener datos de 1,5 millones de personas. El hecho de no contener información personal permite, además, que las repuestas sean públicas.

El impulsor del proyecto asegura que la técnica de hacer preguntas indirectas es relativamente reciente, de hace unos treinta años aproximadamente. «La primera vez que se utilizó se hizo para realizar una estimación del número de muertes que podrían haberse producido en el terremoto de México e 1985, porque obviamente los muertos no podían responder. Entonces se preguntó a la gente cuántas personas conocidas habían desaparecido. Pero, después, la técnica se ha utilizado para hacer una estimación del número de infectados de VIH o de personas dedicadas a la prostitución. La técnica se utiliza cuando acceder al sujeto de la encuesta es difícil o no es fiable. Pero creo que nosotros somos los primeros en utilizarla a nivel mundial», asegura el experto a LA RAZÓN.

Rosa Elvira Lillo, directora del UC·M Santander Big Data Institute
Rosa Elvira Lillo, directora del UC·M Santander Big Data InstituteJesús G. FeriaLa Razon

Hasta el 25% de personas se han infectado en Madrid

La prueba empírica de que el proyecto funciona es el hecho de que los resultados obtenidos en distintas fechas sobre la incidencia del virus son similares a los publicados por el Instituto Carlos III. El análisis de los datos han permitido constatar que, a estas alturas, en toda España se han infectado entre el 15 y el 20% de la población, mientras que en Madrid, este porcentaje es algo mayor: entre el 20 y el 25%.

Pero esto no es más que el principio. Ahora el equipo de CoronaSurveys está trabajando en el desarrollo de prototipos para que sus encuestas tengan capacidad predictiva sirviéndose del big data y se pueda saber con una antelación de al menos una semana la evolución del virus. Los investigadores calculan que en dos meses estarán ya preparados para poder obtener esta información.

De momento, el equipo de CoronaSurveys ha participado ya en dos competiciones Data Challenge pero lo que tienen claro es que su trabajo va a servir en el futuro para tener una idea más clara de lo que ha pasado, una radiografía más fiable de la evolución de la pandemia.