Sociedad

No dejes que te engañen con las gráficas

Antes de leer un gráfico, ten en cuenta estos cinco puntos y evita confusiones

ROMAN PILIPEYEFE

Vivimos en un mar de datos. La reciente pandemia de Covid19 nos deja una gran cantidad de información que analizar y los estudios llenan los telediarios. No es extraño ver gráficas cada día con la evolución de la enfermedad, y todos estamos pendientes de la evolución de la ola.

Pero a pesar de la seriedad y rigor que suscitan las gráficas, no tienen por qué ser correctas. Algunos gráficos provienen de estudios preliminares y no contrastados, o arrojan conclusiones que no necesariamente son correctas. Muchos aprovechan los datos en su beneficio, como un arma arrojadiza para validar sus ideas subjetivas.

En este artículo haremos un repaso de las principales trampas en las que podemos caer al ver un gráfico. Tras su lectura, esperamos que se pueda ver los datos con nuevos ojos.

A veces todo es fruto de la casualidad

Hoy en día se acumula una gran cantidad de datos de prácticamente cualquier evento. Visualizaciones de programas de televisión, accidentes y contagios. Miles de datos pueden surgir de una misma semana de observación. Esto tiene un efecto secundario importante: es posible que dos grupos de datos se comporten de manera parecida y sea culpa de la casualidad.

Este problema es bastante habitual en la ciencia, y por él existe el método científico. En los laboratorios primero se plantean una hipótesis, que tratan de confirmar a través de experimentos y datos. Si el orden es el contrario, caemos en el error de mirar los datos y buscar cualquier patrón que parezca relevante aunque no tenga sentido.

En internet podemos encontrar diferentes páginas dedicadas a buscar correlaciones entre datos que, aunque se parezcan mucho, son completamente absurdas. Por ejemplo, hace unos años, el número de películas protagonizadas por Nicolas Cage crecía al mismo ritmo que las muertes de ahogados en piscinas. Por mucho que le demos vueltas, esa relación debe ser fruto de la casualidad y no fruto de una conspiración.

Gráfica con el número de ahogamientos en piscinas entre 1999 y 2009 comparada con las películas con Nicolas Cage. Las gráficas son parecidas pero no quiere decir que signifique algo (Adaptada de tylervigen.com) FOTO: Tyle Vigen

Lo que no podemos ver

Si descartamos la casualidad y las conexiones absurdas, podemos encontrarnos con dos grupos de datos que realmente estén relacionados entre sí y cambian al mismo tiempo. En este caso, la duda que surge es si la relación es de causa y efecto. En ocasiones, puede existir un tercer factor invisible, cuyos datos no podemos ver, y son los responsables de ambos resultados al mismo tiempo.

Por ejemplo, el número de ahogados de piscina también tiene una evolución parecida al del consumo de helado. ¿Esto significa que el helado nos ahoga en la piscina? No, significa que hay un tercer factor oculto, el verano y sus altas temperaturas, que relaciona ambos fenómenos. Comemos helado y vamos más a la piscina porque hace más calor esos meses.

Salvo ejemplos evidentes como el que acabamos de indicar, en ciencia a veces es difícil comprobar si dos hechos están realmente relacionados por causa-efecto o hay algo escondido. Para lograrlo, una relación causa-efecto no se suele demostrar con un único experimento, sino con varios. Por ejemplo, si queremos confirmar si el helado realmente provoca ahogamientos en piscina, podemos dar helado a varios voluntarios en invierno para ver si se ahogan en alguna piscina. También podríamos comprobar si entre la gente ahogada hay un consumo de helado por encima de lo normal. Con este ejemplo parece algo absurdo, pero no lo es tanto en caso de estudiar cómo dos neuronas envían señales juntas o cómo colisionan dos átomos en un acelerador.

En los estudios relativos al número de infectados y fallecidos por covid19 se ha comprobado que los factores más relevantes son la respuesta temprana a la pandemia, la participación ciudadana, y las medidas sanitarias que han sido adoptadas. Estos datos son los que mejor se conectan con la evolución de casos, pero puede haber otros factores ocultos. Por ejemplo, la riqueza o la edad media de un país pueden ser factores importantes. Un país pobre tendrá menos recursos sanitarios, ciudadanos peor alimentados, y más posibilidades de sufrir los efectos de la pandemia durante más tiempo. Y un país de más gente mayor tendrá un peor pronóstico de la enfermedad para sus habitantes.

Cuando un país son todos sus habitantes

Como norma: si una gráfica compara países entre sí, desconfía de ella. Los países son muy difíciles de comparar. Es como comparar dos jugadores de fútbol que juegan en posiciones diferentes. No hay muchos datos que podamos realmente usar, ya que sería injusto comparar un portero con un delantero usando el número de goles que marcan o el tiempo que pasan corriendo.

Para comparar entre agentes tan diferentes, es necesario usar herramientas estadísticas especiales, dedicadas a normalizar en la medida de lo posible a los países, añadiendo ventajas y desventajas para que sean lo más parecidos posible a nivel matemático. Y aun así, estas herramientas están sujetas a error y requieren de una gran cantidad de datos para ser fiables. Esta limitación se vuelve especialmente sangrante en el caso de la pandemia de SARS-Cov-2, ya que no hay precedentes y solo podemos usar unos pocos datos no muy detallados en la mayoría de países.

Este hecho hace que caigamos en un error conocido como falacia ecológica. Reducir un país a un único dato es sobresimplificar, e ignorar toda la variedad de casos de sus habitantes. Si usamos el valor medio de todos los habitantes, tendemos a pensar que todos tendrán ese valor o uno parecido, pero necesariamente no es así. La riqueza media de un país no tiene por qué coincidir con la de cada habitante, y puede estar distribuida entre unos pocos millonarios y mucha gente pobre. Simplemente, no tenemos suficiente información real para dar un veredicto con una gráfica y un valor por país.

Gráfica que compara los fallecidos de la pandemia con el consumo medio de repollo. Puede parecer una relación, pero no sabemos cómo afecta el consumo individual a cada habitante. (Adaptado de https://doi.org/10.1101/2020.07.17.20155846 ) FOTO: Medrxiv

Al comparar la evolución de la pandemia entre países, este error surge. Cada país ha tenido una curva de contagio diferente. Algunos como Estados Unidos ni siquiera han acabado. Comparar el número de infectados o fallecidos totales con cualquier factor es realmente arriesgado, y es más probable que saquemos una conclusión basada en la casualidad y lo que queremos ver, antes que un resultado real. Para lograr una conclusión auténtica es necesario un mayor número de datos por país, separando correctamente a sus habitantes y estudiando cada habitante de cada país de manera individual, algo casi imposible para los datos actuales.

Mira este dato, y no este otro

Cuando observamos una gráfica, puede que esté orientada a apoyar alguna idea. Esta conclusión puede ser más o menos razonable pero no hay que olvidar el marco general. La mayoría de fenómenos en la naturaleza, incluidas las pandemias, son multifactoriales, por lo que no tienen una única explicación, sino varias causas que se mezclan entre sí con diferente relevancia.

Explicar todo con unas pocas gráficas tiene una consecuencia: meter debajo de la alfombra otros resultados contradictorios para nuestras teorías. A esto se le conoce como cherry picking (o recogida de cerezas en español), explicando que al igual que solo cogemos las mejores cerezas para comerlas, solo nos quedamos con las mejores gráficas para validar nuestras conclusiones, ignorando el resto.

El cherry picking es un fenómeno que, si bien puede producirse de manera involuntaria, refleja una mala práctica en el mundo de los datos. Muchas veces una relación no llega a estar clara, y hay varios estudios contradictorios. Si esto sucede, es importante saberlo. Puede que haya una explicación alternativa o algún factor oculto importante. El mundo no es blanco y negro, sino toda una tonalidad de grises a la que están acostumbrados a moverse los científicos.

No es una competición

Otro error que tendemos a pensar es que todos los datos que tenemos en las gráficas son independientes entre sí. Por ejemplo, el número de fallecidos por el covid19 en España y en Italia pueden parecer sin relación, y cuando vemos varias curvas de evolución superpuestas nos da la sensación de ser una competición entre países, donde todos buscan su propio modo de salir de la pandemia.

Lo cierto es que los datos tienen mucha más relación de lo que parece. China, Italia y España fueron los tres países que primero han sido afectados por la pandemia de coronavirus, por lo que tuvieron que idear su propia respuesta temprana e improvisar con medidas de confinamiento y desconfinamiento, bajo el asesoramiento de la OMS. Los siguientes países no parten desde cero, sino que han podido ver las medidas tomadas por estos países iniciales, y tratar de adoptarlas antes o incluso mejorarlas.

Esto hace que realmente los datos estén relacionados y dependen entre sí. No basta con ajustar las curvas para que empiecen en el día 0. El conocimiento de la enfermedad y la forma de contagio ha sido diferente en la pandemia de cada país. En ocasiones, puede dar la impresión de que los países más tardíos en recibir la pandemia han sido los menos afectados. Pero esto no significa que el país sea intrínsecamente mejor, sino que contaba con mejores armas para defenderse.

Con el tiempo, obtendremos cada vez mejores datos de la pandemia, y todos los países compartirán su información para disminuir el número de afectados. Quizá el mayor error de estas gráficas es que comparan entre países y regiones como si fueran rivales, ignorando que estamos jugando un partido en equipo sin precedentes.

QUE NO TE LA CUELEN:

  • En resumen, para evitar errores en leer un gráfico es necesario ver que se está diciendo con él, y comprobar si esta relación tiene sentido o puede ser fruto de la casualidad.
  • Existen tratamientos estadísticos que mejoran la confianza en este tipo de resultados, pero requieren mucho más datos, no fácilmente obtenibles en todos los países. Por este motivo, hacer este tipo de gráficos no es tan sencillo como incluirlo en una hoja de cálculo, sino que tiene mucho más trabajo por debajo.

REFERENCIAS: