Los algoritmos sí tienen que ver con las relaciones humanas

No se olvide, querido lector curioso, que hoy 20 de octubre se celebra el Día Mundial de la Estadística. Y que la estadística no son sólo esos datos que salen generalmente en los medios

Gráfico de Collatz. En su eje horizontal se muestran los números sobre los que aplicar el algoritmo y en el eje vertical el número de veces que hay que aplicárselo a cada uno hasta conseguir llegar al ansiado bucle de 4 2 1.Ignacio Crespo

Hagamos un primer experimento: piense en su relación de pareja- en caso de tenerla- y trate de evaluar cómo de feliz se siente con ella entre 1 y 5 (donde 1 es lo peor y 5 lo mejor). Apunte el número en un papel. Ahora, haga la siguiente cuenta: "Empiece en el valor 3.80. Si su edad es mayor a 35 años, reste -0.22; si sus ingresos son mayores a 20.000 euros (salario mediano en España), sume 0.11; por cada vez que se haya casado, sume 0.07; si es cabeza de familia, sume 0.13; por cada persona que viva en su casa, reste 0.04; por cada diez años de convivencia, sume 0.27; pero por cada año de relación a partir de los 16 años (duración media del matrimonio en España), reste 0.03. Compare lo que ha salido con lo que escribió en el papel. ¿Se parece? ¿Nos hemos equivocado mucho?

Acabamos de presentarle un modelo (si quiere, un algoritmo), no un truco de magia. Para llegar a él, hemos obtenido datos de una encuesta que realiza la Universidad de Stanford a miles de individuos de manera regular. Son cientos de preguntas sobre su relación de pareja y sobre su situación (puede consultarla aquí: https://data.stanford.edu/hcmst#download-data) y, sinceramente, el título es tan ambicioso como prometedor: “cómo las parejas se conocen y permanecen juntas”. El método que hemos utilizado con esta muestra, para obtener el primer párrafo, se conoce, en estadística, como regresión lineal múltiple. Es, en nuestros días, de los más sencillos, de los más antiguos (nació a principios de siglo XIX gracias a Galton, quien se inspiró en trabajos previos de Gauss y Legendre) y -aun así- de los más utilizados por ser, precisamente, un clásico popular.

Sin embargo, al comparar lo que usted escribió en el papel frente a lo que dice el algoritmo, quizás se esté preguntando por el error cometido. Y yo le respondo: uno de los resultados que nos proporciona siempre una regresión es qué porcentaje de nuestra variable objetivo (felicidad) puede ser explicado por el resto de los factores. En nuestro caso, un 15%. ¿Sólo el 15 por ciento? Lamentablemente, el ser humano tiene un alto componente de aleatoriedad. A lo mejor, su nivel de felicidad de hoy es algo distinto al de ayer por algo que le haya molestado hoy de su pareja. Y eso, por supuesto, no se puede cuantificar. En estadística convivimos con el error: está ahí, retorciendo nuestros algoritmos entre el misterio y la desesperación.

Bien, pensará usted, ¿y por qué esas variables y no otras? La primera respuesta que podría darle es que me han hecho un atraco y, por tanto, no he tenido tiempo de hacer algo mejor. Le cuento: los algoritmos, como el que le he presentado, necesitan su tiempo: no es un trabajo automático. Hay que conocer, en este caso, previamente la teoría detrás de las relaciones humanas (por lo que no viene mal tener a un sociólogo o psicólogo a mano), hay que elegir qué se pregunta en la encuesta y cómo se pregunta, pulir los datos y, finalmente, establecer un marco conceptual en el que entrenar este (y otros) algoritmos para cuantificar, con la mayor precisión, los efectos que buscamos.

Detrás de un algoritmo hay una persona que debe pensar cómo deben figurar las variables de acuerdo con ciertas hipótesis de partida. Entonces, me interpelará, ¿no hay un único modelo? Pues le diré que hay tantos como personas estén detrás de ellos. El trabajo con datos añade, a la ciencia, una vertiente más: “el arte”. No se olvide de que la ciencia, en general, tiene dos propósitos fundamentales: explicar lo que ocurre y ser capaz de anticiparse a ello. Para ambas facetas, hay algo común: buscar patrones en un cierto caos. La búsqueda de esos patrones, usando datos, tiene un nuevo inconveniente: no hay una regla clara, no hay una receta que utilizar y que siempre funcione. El trabajo con datos implica mucha creatividad, a partir de una inspección inicial de estos mediante gráficos que nos llevan al planteamiento de hipótesis que están ocultas en ellos para, finalmente, ser capaz de ver cómo de compatibles son estos con las hipótesis.

¿Y cómo sabe qué algoritmo es mejor? Pregunta, usted, de repente. En general, en estadística, trabajamos con la idea de Cox, un grande entre los grandes: “ningún modelo es bueno, pero todos ayudan”. Entonces, no desechamos lo que nos dice cualquier modelo, sino que tratamos de combinarlos para que-en conjunto- mejoremos nuestra capacidad predictiva y explicativa de la realidad.

No se olvide, querido lector curioso, que hoy 20 de octubre se celebra el Día Mundial de la Estadística. Y que la estadística no son sólo esos datos que salen generalmente en los medios de comunicación (por ejemplo, por la pandemia han caído casi un 4% los divorcios en España). Sino que una gran parte del trabajo de quienes nos dedicamos a ello es tratar de elaborar algoritmos (o modelos) que nos permitan anticiparnos a lo que va a ocurrir para poder establecer políticas de actuación. No puede estar más de actualidad, por cuanto las grandes empresas de estos tiempos compiten por contratar, a golpe de talonario, a los mejores data scientists y se ha incorporado, desde hace un tiempo, al debate en la prensa a periodistas de datos. Los grados universitarios refuerzan, en cada plan de estudios, la importancia del análisis de datos y modelización y, además, hacen hincapié en la necesidad de que los alumnos sepan contarlo en público, para seguir generando más necesidad de debate y discusión en torno a datos. Aunque a veces, también, la estadística es desesperante. Señor Gauss, ¿qué haría usted?

Escrito por Jorge Herrera de la Cruz, profesor de Matemática Aplicada y Estadística de la Universidad CEU San Pablo.