Coronavirus

La demostración matemática de los errores de Simón

El experto en data science, Guillermo Blanco analiza dónde está el origen de la disparidad de datos en relación a los fallecidos por covid,

El matemático Guillermo Blanco, durante el análisis de los datos del Covid
El matemático Guillermo Blanco, durante el análisis de los datos del Covid©Gonzalo Pérez MataLa Razón.

Quizá, en algún momento, usted haya enloquecido a la hora de entender los datos sobre la evolución de la pandemia. Es probable que, en más de una ocasión, haya pensado que las autoridades le engañaban cuando los datos sobre un mismo aspecto diferían en función de la fuente que emitía las estadísticas. Es más, seguramente, se ha llevado las manos a la cabeza esta semana cuando, desde tres organismos diferentes (los tres dependientes del Gobierno), se plantearon cifras muy dispares en relación al número de fallecidos, sin duda el aspecto más doloroso de esta crisis. Según el Instituto Nacional de Estadística (INE) el «exceso de mortalidad» de marzo a mayo fue de 48.000 personas, mientras que los informes de MoMo (el sistema de Monitorización de la Mortalidad diaria) afirmaban que eran 43.000, al tiempo que el Ministerio de Sanidad reportaba ese mismo día un total de 27.127 muertes. Para más «inri», el Instituto Carlos III asegura que los fallecimientos desde el inicio de la crisis son 27.940 ¿Cómo es posible estas variaciotan significativas? ¿Qué está ocurriendo para que no sepamos realmente la incidencia de la COVID en nuestra población? ¿Cuáles son las variables que producen estas diferencias? Para comprender dónde está el error y analizar los sistemas matemáticos y estadísticos que aportan los dispares resultados, acudimos a una «master class» con Guillermo Blanco, matemático y líder técnico de departamento de Data Science en la multinacional Capgemini Invent.

Aceleración del dato

Para Blanco, el fallo está claro: la toma de datos. Es decir, no es tanto la estadística que los ordena sino la base sobre la que ésta se sustenta. «Me consta que las diversas unidades de la Administración del Estado y de las comunidades autónomas con competencia estadística están intentando unificar criterios, pero no es algo ni fácil, ni trivial. La estadística de defunciones se publica una vez al año y es una de las más complejas. Precisamente, el problema está en la toma de datos, hay factores humanos y técnicos que pueden alterarlo. En este caso, me da la impresión, por experiencia profesional, de que las prisas por acelerar el dato han llevado a acudir a fuentes secundarias. Se han mezclado y ha generado la confusión actual. La única fuente fiable sobre fallecimientos es el Registro Civil, donde se constata la muerte de una persona con su identificación. Aquí, durante meses se ha trabajado con datos facilitados por hospitales y funerarias, no directamente con la autoridad competente en la materia», afirma. Los reajustes a los que tanto se refiere Fernando Simón, director desde 2012 del Centro de Coordinación de Alertas y Emergencias Sanitarias del Ministerio de Sanidad, aluden precisamente a esta disgregación: «Ahora se ha puesto nombre y apellido a cada víctima; antes, simplemente se transmitía desde cada hospital o funeraria el número. Al compararlos se ha visto que algunos estaban duplicados, o incluso que algunos no se habían contado», apunta.

Víctima covid vs. otra afección

Para entender la dificultad de recoger datos COVID, este matemático los compara de manera didáctica con los fallecimientos de otra índole: «Si, por ejemplo, una persona fallece de un infarto en su domicilio, se guarda el cuerpo hasta que llega un médico y lo certifica. Se redacta, un informe especificando la razón del fallecimiento y le asigna un código que después pasa a una base de datos. Ese código puede ser tan genérico como ‘‘causas naturales’’ o ‘‘desconocida’’ o tan específico como ‘‘infarto agudo de miocardio, bloqueo de rama izquierda’’. A continuación, aparece un juez de guardia que autoriza el levantamiento del cuerpo. Una vez que se levanta el acta, se envía al juzgado y es el Registro Civil, que depende de Justicia, quien eleva un informe al INE y a la unidad estadística autonómica, si existiera. Ésta los limpia de erratas y finalmente lo procesa. Si esto ocurriera en un hospital, el procedimiento es parecido, salvo la presencia de juez que solo ocurriría, si no me equivoco, en casos puntuales». Hasta este punto no hay dudas. Pero este protocolo no estaría ocurriendo en fallecimientos por COVID: «El juez no aparece en el proceso y el sistema sanitario está colapsado. El médico, probablemente no ha tratado al fallecido con anterioridad. Pregunta a los familiares por sus síntomas. Si ocurrió a finales de febrero es posible que se le asignara el código de gripe, mientras que, si se lo hizo a principios de marzo, pudieron asignarles desde insuficiencia respiratoria hasta desconocido. El código COVID no existía entonces. Ahora habrían comenzado a incluirse algunos de estos casos que antes no lo estaban», explica este experto en ciencia de datos. Además, añade que cuando el informe de este paciente inicialmente no tratado de la COVID llega el juzgado para su registro, se encuentra también el caso. «Es muy probable que haya casos que se han traspapelado, que aparecen más tarde o que se han olvidado en alguna mesa. Los funcionarios del registro redactan un informe y puede que, con el descontrol que ha habido, no haya existido al principio un estándar unificado en todos los juzgados para registrar estos fallecimientos. Es inevitable cometer errores en estas circunstancias», reconoce.

Modelo en entredicho

Para predecir el comportamiento del virus se usa un modelo muy básico, denominado SIR, sobre el que se realizan simulaciones. Pero para reportar el dato bruto, como se está haciendo ahora, ya sea a nivel estatal o autonómico, la metodología estadística no varía. Existen ciertos criterios que están establecidos y comprometidos a nivel internacional. Además, en España, están legislados y existe un reglamento sancionador. Para Blanco, el problema reside en que nos encontramos ante un producto estadístico nuevo. «Cuando esto ocurre, se utiliza un marco de trabajo se llama GSBPM (Generic Statistical Business Process Model) y es un proceso que puede tardar fácilmente un año en ser totalmente fiable. Un producto estadístico tiene que cumplir ciertos criterios de calidad, los cuales velan por su cumplimiento organizaciones europeas y nacionales. Tanto el INE como los demás equipos estadísticos que operan en la Administración están trabajando con estos datos que se han lanzado en modo pruebas», confiesa. Para él, lo más eficiente para evitar errores es también «invertir en la tecnología que sustenta nuestro sistema sanitario. El problema es que un hospital invierte en material médico que, por supuesto, es fundamental, pero no le da el valor suficiente al soporte informático», añade.

¿De quién nos fiamos?

Según la experiencia de Blanco, lo más fiable es lo que publica el INE, «pero dentro de un año, no ahora porque está en fase de prueba», advierte. Hasta marzo de 2021 no tendremos los datos definitivos y reales de mortalidad de la COVID. Si lo que deseamos es obtener en este instante un dato que se aproxime más a la realidad, «MoMo, sin duda», apunta. Para él, el sistema de recuento español que de manera constante corrige errores es muy positivo para los investigadores, pero entiende que esto cause desconfianza entre la ciudadanía al comprobar la disparidad de datos y desconocer la evolución de la pandemia.